論文の概要: From Videos to Conversations: Egocentric Instructions for Task Assistance
- arxiv url: http://arxiv.org/abs/2602.01038v1
- Date: Sun, 01 Feb 2026 05:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.549648
- Title: From Videos to Conversations: Egocentric Instructions for Task Assistance
- Title(参考訳): ビデオから会話へ:タスク支援のためのエゴセントリックな指導
- Authors: Lavisha Aggarwal, Vikas Bahirwani, Andrea Colaco,
- Abstract要約: 本稿では,個別の指導ビデオを自動的に2対のマルチモーダル・タスク・ガイダンス・会話に変換するフレームワークを提案する。
私たちの完全な自動パイプラインは、大きな言語モデルに基づいており、従来のデータ収集アプローチに代わるスケーラブルでコスト効率のよいものを提供します。
- 参考スコア(独自算出の注目度): 2.848400947017194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many everyday tasks, ranging from appliance repair and cooking to car maintenance, require expert knowledge, particularly for complex, multi-step procedures. Despite growing interest in AI agents for augmented reality (AR) assistance, progress remains limited by the scarcity of large-scale multimodal conversational datasets grounded in real-world task execution, in part due to the cost and logistical complexity of human-assisted data collection. In this paper, we present a framework to automatically transform single person instructional videos into two-person multimodal task-guidance conversations. Our fully automatic pipeline, based on large language models, provides a scalable and cost efficient alternative to traditional data collection approaches. Using this framework, we introduce HowToDIV, a multimodal dataset comprising 507 conversations, 6,636 question answer pairs, and 24 hours of video spanning multiple domains. Each session consists of a multi-turn expert-novice interaction. Finally, we report baseline results using Gemma 3 and Qwen 2.5 on HowToDIV, providing an initial benchmark for multimodal procedural task assistance.
- Abstract(参考訳): 器具の修理や調理から車のメンテナンスまで、多くの日常的な作業は、特に複雑な多段階の手順のために専門家の知識を必要とする。
拡張現実(AR)支援のためのAIエージェントへの関心は高まっているが、実際のタスク実行に基礎を置いている大規模なマルチモーダルな会話データセットの不足により、進歩は依然として限られている。
本稿では,一対一の指導映像を2対1のマルチモーダル・タスクガイダンス・会話に自動変換する枠組みを提案する。
私たちの完全な自動パイプラインは、大きな言語モデルに基づいており、従来のデータ収集アプローチに代わるスケーラブルでコスト効率のよいものを提供します。
このフレームワークを用いて、507の会話、6,636の質問応答対、24時間の複数のドメインにまたがるビデオからなるマルチモーダルデータセット、HowToDIVを紹介した。
各セッションは、マルチターンの専門家と初心者のインタラクションで構成される。
最後に, Gemma 3 と Qwen 2.5 を用いた HowToDIV のベースライン結果について報告する。
関連論文リスト
- IVCR-200K: A Large-Scale Multi-turn Dialogue Benchmark for Interactive Video Corpus Retrieval [36.33423199468626]
対話型ビデオコーパス検索(IVCR)タスクは,ユーザと検索システム間のマルチターン,対話,現実的な対話を可能にする。
IVCR-200Kは高品質、バイリンガル、マルチターン、会話、抽象的なセマンティックデータセットであり、ビデオ検索やモーメント検索もサポートしている。
本稿では,マルチモーダルな大規模言語モデル(MLLM)に基づく包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-01T06:12:59Z) - A Multimodal Conversational Agent for Tabular Data Analysis [0.2211620227346065]
大規模言語モデル(LLM)は、音声対話を含むユーザとの対話において、ハイパフォーマンスを維持しながら、データ分析、可視化、解釈を扱うことで、情報処理を再構築することができる。
直感的データ探索のためのマルチモーダルLLM駆動型対話エージェントTalk2Dataを提案する。
このシステムでは、ユーザーは音声やテキストでデータセットをクエリし、プロット、テーブル、統計、音声による説明などの回答を受け取ることができる。
論文 参考訳(メタデータ) (2025-11-23T11:21:04Z) - Generating Dialogues from Egocentric Instructional Videos for Task Assistance: Dataset, Method and Benchmark [4.583536383592244]
本稿では,1対1の指導ビデオからタスク誘導2対1の対話へと変換する,シンプルで効果的な手法を提案する。
我々の完全に自動化されたアプローチは、大規模な言語モデルによって実現されており、人手によるデータ収集に必要な相当なコストと労力の代替となる。
HowToDIVは、507の会話、6636の質問応答ペア、24時間のビデオクリップを含む大規模なデータセットで、料理、メカニック、植え付けのさまざまなタスクにまたがる。
論文 参考訳(メタデータ) (2025-08-15T03:57:20Z) - Proactive Assistant Dialogue Generation from Streaming Egocentric Videos [48.30863954384779]
この研究は、多様なタスクを通じてユーザーを誘導できるリアルタイムでプロアクティブなAIアシスタントを開発するための基礎を築いた。
まず,注釈付きエゴセントリックビデオから対話を合成する新しいデータキュレーションパイプラインを提案する。
第2に、広範囲な人間の研究を通して検証された自動評価指標のスイートを開発する。
第3に,ストリーミングビデオ入力を処理し,文脈的に適切な応答を生成するエンド・ツー・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:23:29Z) - InsTALL: Context-aware Instructional Task Assistance with Multi-modal Large Language Models [11.913271486031201]
マルチモーダルな大規模言語モデル(InsTALL)を用いたコンテキスト認識型インストラクショナル・タスク・アシスタントを開発した。
InsTALLは、そのタスクに関連するユーザクエリに対して、リアルタイムで応答する。
InsTALLはマルチモーダルアクティビティ理解のためのサブタスクを提案する。
論文 参考訳(メタデータ) (2025-01-21T15:55:06Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。