論文の概要: Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?
- arxiv url: http://arxiv.org/abs/2511.21998v1
- Date: Thu, 27 Nov 2025 00:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.340424
- Title: Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?
- Title(参考訳): マルチモードLLMはライブステップバイステップタスクガイダンスを提供できるか?
- Authors: Apratim Bhattacharyya, Bicheng Xu, Sanjay Haresh, Reza Pourreza, Litian Liu, Sunny Panchal, Pulkit Madan, Leonid Sigal, Roland Memisevic,
- Abstract要約: Qualcomm Interactive Cooking ベンチマークを用いて,最先端のマルチモーダル言語モデル (LLM) の評価を行った。
対話型指導指導のためのマルチモーダルLLMであるLiveMambaを紹介する。
この作業は、最初の専用のベンチマークと、ライブで配置されたコーチングの開発と評価のための強力なベースラインを提供する。
- 参考スコア(独自算出の注目度): 27.55597863240135
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-modal Large Language Models (LLM) have advanced conversational abilities but struggle with providing live, interactive step-by-step guidance, a key capability for future AI assistants. Effective guidance requires not only delivering instructions but also detecting their successful execution, as well as identifying and alerting users to mistakes, all of which has to happen in real-time. This requires models that are not turn-based, but that can react asynchronously to a video stream, as well as video data showing users performing tasks including mistakes and their corrections. To this end, we introduce Qualcomm Interactive Cooking, a new benchmark and dataset built upon CaptainCook4D, which contains user mistakes during task execution. Our dataset and benchmark features densely annotated, timed instructions and feedback messages, specifically including mistake alerts precisely timestamped to their visual occurrence in the video. We evaluate state-of-the-art multi-modal LLMs on the Qualcomm Interactive Cooking benchmark and introduce LiveMamba, a streaming multi-modal LLM designed for interactive instructional guidance. This work provides the first dedicated benchmark and a strong baseline for developing and evaluating on live, situated coaching.
- Abstract(参考訳): マルチモーダル大規模言語モデル(LLM)は、高度な会話能力を持っているが、将来のAIアシスタントにとって重要な機能である、ライブでインタラクティブなステップバイステップガイダンスの提供に苦労している。
効果的なガイダンスには、命令を配信するだけでなく、実行を成功させると同時に、ユーザにミスを特定して警告することが必要です。
これはターンベースではないが、ビデオストリームに対して非同期に反応するモデルと、ミスや修正を含むタスクを実行するユーザを示すビデオデータを必要とする。
この目的のために我々は,CaptainCook4D上に構築された新しいベンチマークとデータセットであるQualcomm Interactive Cookingを紹介した。
当社のデータセットとベンチマークでは、ビデオの視覚的発生に正確にタイムスタンプされたエラーアラートを含む、高密度の注釈付きタイムドインストラクションとフィードバックメッセージが特徴です。
我々はQualcomm Interactive Cookingベンチマークで最先端のマルチモーダルLLMを評価し、インタラクティブな指導指導のために設計されたストリーミングマルチモーダルLLMであるLiveMambaを紹介した。
この作業は、最初の専用のベンチマークと、ライブで配置されたコーチングの開発と評価のための強力なベースラインを提供する。
関連論文リスト
- True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z) - User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance [14.11032383241148]
本研究では,Large Language Models (LLMs) を用いた現代多モーダル推論モデルの有用性について検討した。
このようなアシスタントは、(1)アシスタントのセンサーから関連する視覚履歴をエンコードできなければならない。
Socraticのアプローチは、オフラインとオンラインの両方でVCLMよりも優れています。
論文 参考訳(メタデータ) (2024-08-04T06:12:42Z) - Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning [102.54669633984278]
本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。
Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
論文 参考訳(メタデータ) (2024-02-18T03:04:38Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。