論文の概要: VIGiA: Instructional Video Guidance via Dialogue Reasoning and Retrieval
- arxiv url: http://arxiv.org/abs/2602.19146v1
- Date: Sun, 22 Feb 2026 12:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.504036
- Title: VIGiA: Instructional Video Guidance via Dialogue Reasoning and Retrieval
- Title(参考訳): VIGiA: 対話推論と検索による指導ビデオ誘導
- Authors: Diogo Glória-Silva, David Semedo, João Maglhães,
- Abstract要約: 複雑なマルチステップビデオアクション計画の理解と推論を目的とした,新しいマルチモーダル対話モデルであるVIGiAを紹介する。
評価の結果,VIGiAは全タスクにおける既存の最先端モデルよりも会話型プランガイダンス設定で優れており,プラン対応VQAでは90%以上の精度が達成されている。
- 参考スコア(独自算出の注目度): 2.836258000910872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce VIGiA, a novel multimodal dialogue model designed to understand and reason over complex, multi-step instructional video action plans. Unlike prior work which focuses mainly on text-only guidance, or treats vision and language in isolation, VIGiA supports grounded, plan-aware dialogue that requires reasoning over visual inputs, instructional plans, and interleaved user interactions. To this end, VIGiA incorporates two key capabilities: (1) multimodal plan reasoning, enabling the model to align uni- and multimodal queries with the current task plan and respond accurately; and (2) plan-based retrieval, allowing it to retrieve relevant plan steps in either textual or visual representations. Experiments were done on a novel dataset with rich Instructional Video Dialogues aligned with Cooking and DIY plans. Our evaluation shows that VIGiA outperforms existing state-of-the-art models on all tasks in a conversational plan guidance setting, reaching over 90\% accuracy on plan-aware VQA.
- Abstract(参考訳): 複雑なマルチステップビデオアクション計画の理解と推論を目的とした,新しいマルチモーダル対話モデルであるVIGiAを紹介する。
テキストのみのガイダンスに焦点をあてたり、視覚と言語を単独で扱う以前の作業とは異なり、VIGiAは、視覚的な入力、教育計画、インターリーブされたユーザインタラクションの推論を必要とする、基本的でプラン対応の対話をサポートする。
この目的のために、VIGiAは、(1)マルチモーダルな計画推論、2)一様および多様のクエリを現在のタスクプランと正確に一致させ、(2)計画ベースの検索により、テキストまたは視覚的表現で関連する計画ステップを検索する、という2つの重要な機能を備えている。
実験は、CookingとDIYプランに沿ったリッチなインストラクショナルビデオ対話を備えた、新しいデータセット上で行われた。
評価の結果,VIGiAは全タスクにおける既存の最先端モデルよりも会話型プランガイダンス設定の方が優れており,プラン対応VQAでは90%以上精度が高いことがわかった。
関連論文リスト
- Visual Planning: Let's Think Only with Images [46.501897093584965]
我々は、特に空間的情報や幾何学的情報を含むタスクにおいて、言語が推論において最も自然で効果的なモダリティであるとは限らないと論じる。
そこで我々は,これらの「ビジョンファースト」タスクを純粋に視覚的に表現して計画できる新しいパラダイム「ビジュアルプランニング」を提案する。
このパラダイムでは、計画は視覚領域におけるステップバイステップの推論を符号化する一連の画像を通して実行される。
論文 参考訳(メタデータ) (2025-05-16T16:17:22Z) - Show and Guide: Instructional-Plan Grounded Vision and Language Model [9.84151565227816]
MM-PlanLLMは,最初のマルチモーダル計画追従言語モデルである。
会話ビデオモーメント検索と視覚インフォームドステップ生成という,2つの重要なタスクを通じて,クロスモダリティを実現する。
MM-PlanLLMは、新しいマルチタスク・マルチステージアプローチを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-27T18:20:24Z) - Visual Instruction Tuning towards General-Purpose Multimodal Model: A
Survey [59.95153883166705]
従来のコンピュータビジョンは、モデルアーキテクチャで暗黙的に設計されたタスク命令を持つ専用モデルによって、個々のタスクを独立して解決する。
近年,視覚インストラクション・チューニング (VIT) の研究が盛んに行われている。
本研究の目的は,(1)コンピュータビジョンタスクのパラダイムとVIT開発を提示する背景,(2)一般的に使用されるネットワークアーキテクチャ,視覚的命令チューニングフレームワークと目的を導入したVITの基礎,および,設定とタスクの評価,(3)視覚的命令チューニングと評価において一般的に使用されるデータセットの体系的レビューを提供することである。
論文 参考訳(メタデータ) (2023-12-27T14:54:37Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。