論文の概要: Generating Dialogues from Egocentric Instructional Videos for Task Assistance: Dataset, Method and Benchmark
- arxiv url: http://arxiv.org/abs/2508.11192v1
- Date: Fri, 15 Aug 2025 03:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.734129
- Title: Generating Dialogues from Egocentric Instructional Videos for Task Assistance: Dataset, Method and Benchmark
- Title(参考訳): タスク支援のためのエゴセントリックなインストラクショナルビデオから対話を生成する:データセット,メソッド,ベンチマーク
- Authors: Lavisha Aggarwal, Vikas Bahirwani, Lin Li, Andrea Colaco,
- Abstract要約: 本稿では,1対1の指導ビデオからタスク誘導2対1の対話へと変換する,シンプルで効果的な手法を提案する。
我々の完全に自動化されたアプローチは、大規模な言語モデルによって実現されており、人手によるデータ収集に必要な相当なコストと労力の代替となる。
HowToDIVは、507の会話、6636の質問応答ペア、24時間のビデオクリップを含む大規模なデータセットで、料理、メカニック、植え付けのさまざまなタスクにまたがる。
- 参考スコア(独自算出の注目度): 4.583536383592244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many everyday tasks ranging from fixing appliances, cooking recipes to car maintenance require expert knowledge, especially when tasks are complex and multi-step. Despite growing interest in AI agents, there is a scarcity of dialogue-video datasets grounded for real world task assistance. In this paper, we propose a simple yet effective approach that transforms single-person instructional videos into task-guidance two-person dialogues, aligned with fine grained steps and video-clips. Our fully automatic approach, powered by large language models, offers an efficient alternative to the substantial cost and effort required for human-assisted data collection. Using this technique, we build HowToDIV, a large-scale dataset containing 507 conversations, 6636 question-answer pairs and 24 hours of videoclips across diverse tasks in cooking, mechanics, and planting. Each session includes multi-turn conversation where an expert teaches a novice user how to perform a task step by step, while observing user's surrounding through a camera and microphone equipped wearable device. We establish the baseline benchmark performance on HowToDIV dataset through Gemma-3 model for future research on this new task of dialogues for procedural-task assistance.
- Abstract(参考訳): 器具の修理、調理のレシピ、車のメンテナンスなど、日常的なタスクの多くは、特にタスクが複雑で多段階である場合、専門家の知識を必要とする。
AIエージェントへの関心が高まっているにもかかわらず、現実世界のタスク支援を基盤とする対話ビデオデータセットは不足している。
本稿では,1対1の指導映像をタスク誘導2対1の対話に変換し,きめ細かいステップとビデオクリップに合わせる,シンプルで効果的な手法を提案する。
我々の完全に自動化されたアプローチは、大規模な言語モデルによって実現されており、人手によるデータ収集に必要な相当なコストと労力の代替となる。
この技術を用いて、料理、メカニック、植え付けにおける様々なタスクにまたがる507の会話、6636の質問応答ペア、24時間のビデオクリップを含む大規模データセットであるHowToDIVを構築した。
各セッションはマルチターン会話を含み、専門家は、カメラとマイクを装備したウェアラブルデバイスを通してユーザの周囲を観察しながら、初心者にステップバイステップでタスクを実行する方法を教える。
Gemma-3モデルを用いてHowToDIVデータセットのベースラインベンチマーク性能を確立し、手続きタスク支援のための新しい対話タスクについて今後の研究を行う。
関連論文リスト
- Proactive Assistant Dialogue Generation from Streaming Egocentric Videos [48.30863954384779]
この研究は、多様なタスクを通じてユーザーを誘導できるリアルタイムでプロアクティブなAIアシスタントを開発するための基礎を築いた。
まず,注釈付きエゴセントリックビデオから対話を合成する新しいデータキュレーションパイプラインを提案する。
第2に、広範囲な人間の研究を通して検証された自動評価指標のスイートを開発する。
第3に,ストリーミングビデオ入力を処理し,文脈的に適切な応答を生成するエンド・ツー・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:23:29Z) - Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models [49.4824734958566]
カオス・オブ・モダリティ(CoM)は、ビジョン言語モデルがマルチモーダルな人間の実演データを推論することを可能にする。
CoMはタスクプランを洗練し、詳細な制御パラメータを生成し、ロボットは単一のマルチモーダルなヒューマンビデオプロンプトに基づいて操作タスクを実行できる。
論文 参考訳(メタデータ) (2025-04-17T21:31:23Z) - InsTALL: Context-aware Instructional Task Assistance with Multi-modal Large Language Models [11.913271486031201]
マルチモーダルな大規模言語モデル(InsTALL)を用いたコンテキスト認識型インストラクショナル・タスク・アシスタントを開発した。
InsTALLは、そのタスクに関連するユーザクエリに対して、リアルタイムで応答する。
InsTALLはマルチモーダルアクティビティ理解のためのサブタスクを提案する。
論文 参考訳(メタデータ) (2025-01-21T15:55:06Z) - HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI
Assistants in the Real World [48.90399899928823]
この研究は、物理的な世界でのタスクを実行することで人間を対話的に導くインテリジェントエージェントを開発するための、より広範な研究努力の一環である。
大規模なエゴセントリックなヒューマンインタラクションデータセットであるHoloAssistを紹介する。
人間のアシスタントがミスを正し、タスク完了手順に介入し、環境に指示を下す方法について、重要な知見を提示する。
論文 参考訳(メタデータ) (2023-09-29T07:17:43Z) - HA-ViD: A Human Assembly Video Dataset for Comprehensive Assembly
Knowledge Understanding [5.233797258148846]
HA-ViDは、代表的な産業組み立てシナリオを特徴とする、最初のヒューマンアセンブリビデオデータセットである。
我々は,3222のマルチビュー,マルチモダリティビデオ(各ビデオは1つの組立タスクを含む),1.5Mフレーム,96K時間ラベル,2M空間ラベルを提供する。
我々は、アクション認識、アクションセグメンテーション、オブジェクト検出、マルチオブジェクトトラッキングの4つの基本的なビデオ理解タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-07-09T08:44:46Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。