論文の概要: Show and Guide: Instructional-Plan Grounded Vision and Language Model
- arxiv url: http://arxiv.org/abs/2409.19074v3
- Date: Fri, 18 Oct 2024 23:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 04:30:57.992512
- Title: Show and Guide: Instructional-Plan Grounded Vision and Language Model
- Title(参考訳): Show and Guide: Instructional-Plan Grounded Vision and Language Model
- Authors: Diogo Glória-Silva, David Semedo, João Magalhães,
- Abstract要約: MM-PlanLLMは,最初のマルチモーダル計画追従言語モデルである。
会話ビデオモーメント検索と視覚インフォームドステップ生成という,2つの重要なタスクを通じて,クロスモダリティを実現する。
MM-PlanLLMは、新しいマルチタスク・マルチステージアプローチを用いて訓練される。
- 参考スコア(独自算出の注目度): 9.84151565227816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guiding users through complex procedural plans is an inherently multimodal task in which having visually illustrated plan steps is crucial to deliver an effective plan guidance. However, existing works on plan-following language models (LMs) often are not capable of multimodal input and output. In this work, we present MM-PlanLLM, the first multimodal LLM designed to assist users in executing instructional tasks by leveraging both textual plans and visual information. Specifically, we bring cross-modality through two key tasks: Conversational Video Moment Retrieval, where the model retrieves relevant step-video segments based on user queries, and Visually-Informed Step Generation, where the model generates the next step in a plan, conditioned on an image of the user's current progress. MM-PlanLLM is trained using a novel multitask-multistage approach, designed to gradually expose the model to multimodal instructional-plans semantic layers, achieving strong performance on both multimodal and textual dialogue in a plan-grounded setting. Furthermore, we show that the model delivers cross-modal temporal and plan-structure representations aligned between textual plan steps and instructional video moments.
- Abstract(参考訳): 複雑な手続き計画を通じてユーザを誘導することは、視覚的に図示された計画手順を持つことが、効果的な計画ガイダンスを提供するために不可欠である、本質的にマルチモーダルなタスクである。
しかしながら、計画追従言語モデル(LM)に関する既存の研究は、しばしばマルチモーダルな入力と出力ができない。
本研究では,MM-PlanLLMについて述べる。MM-PlanLLMは,テキスト計画と視覚情報の両方を活用することで,ユーザによる指導作業の実行を支援するための,最初のマルチモーダルLLMである。
具体的には、ユーザクエリに基づいて関連するステップビデオセグメントを検索するConversational Video Moment Retrievalと、計画の次のステップを生成するVisually-Informed Step Generationである。
MM-PlanLLMは,マルチタスク・マルチステージ・アプローチを用いて訓練され,マルチモーダル・インストラクショナル・プラン・セマンティック・レイヤにモデルを徐々に公開し,マルチモーダル・テキスト・対話をプラン・グラウンドで実現する。
さらに,本モデルでは,テキスト・プラン・ステップとインストラクショナル・ビデオ・モーメントの相互時間的および計画的構造的表現を提供する。
関連論文リスト
- Learning Task Planning from Multi-Modal Demonstration for Multi-Stage Contact-Rich Manipulation [26.540648608911308]
本稿では,人間の実演から触覚情報や力覚情報を取り入れた文脈内学習フレームワークを提案する。
本稿では,各モダリティを総合的なタスクプランに順次統合するブートストラップ型推論パイプラインを提案する。
このタスクプランは、新しいタスク設定のプランニングのリファレンスとして使用される。
論文 参考訳(メタデータ) (2024-09-18T10:36:47Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - mChartQA: A universal benchmark for multimodal Chart Question Answer based on Vision-Language Alignment and Reasoning [8.1113308714581]
本稿では,新しいマルチモーダルチャート質問応答モデルを提案する。
我々のモデルは、既存の手法の制約を克服し、視覚的および言語的処理を統合する。
このアプローチは、複数のパブリックデータセット上での優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-02T01:28:44Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - Multimodal Procedural Planning via Dual Text-Image Prompting [78.73875275944711]
エンボディードエージェントは、タスクを完了するための人間の指示に従う際、顕著なパフォーマンスを達成した。
提案するマルチモーダル手続き計画タスクでは,高レベルな目標をモデルに与え,ペア化されたテキストイメージステップの計画を生成する。
MPPの主な課題は、モダリティを越えた計画の情報性、時間的一貫性、正確性を保証することである。
論文 参考訳(メタデータ) (2023-05-02T21:46:44Z) - MVP: Multi-Stage Vision-Language Pre-Training via Multi-Level Semantic
Alignment [24.720485548282845]
言語と視覚のための2段階の意味表現を構築するために,両モードの概念を導入する。
我々は、一様学習と多様学習という2つの段階において、相互モダリティモデルを訓練する。
我々のモデルは、いくつかのビジョンと言語タスクに関する最先端の結果を生成する。
論文 参考訳(メタデータ) (2022-01-29T14:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。