論文の概要: Ego-EXTRA: video-language Egocentric Dataset for EXpert-TRAinee assistance
- arxiv url: http://arxiv.org/abs/2512.13238v1
- Date: Mon, 15 Dec 2025 11:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.645733
- Title: Ego-EXTRA: video-language Egocentric Dataset for EXpert-TRAinee assistance
- Title(参考訳): Ego-EXTRA:Egocentric Dataset for Expert-TRAinee aid
- Authors: Francesco Ragusa, Michele Mazzamuto, Rosario Forte, Irene D'Ambra, James Fort, Jakob Engel, Antonino Furnari, Giovanni Maria Farinella,
- Abstract要約: 提案するEgo-EXTRAは,Expert-TRAinee支援のためのビデオ言語Egocentricデータセットである。
Ego-EXTRAは、手続き的な活動を行う被験者の50時間のエゴセントリックなビデオが特徴である。
現実世界の専門家は、自然言語を使ってガイダンスを提供し、特定の質問に答える。
- 参考スコア(独自算出の注目度): 19.081509891187114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Ego-EXTRA, a video-language Egocentric Dataset for EXpert-TRAinee assistance. Ego-EXTRA features 50 hours of unscripted egocentric videos of subjects performing procedural activities (the trainees) while guided by real-world experts who provide guidance and answer specific questions using natural language. Following a ``Wizard of OZ'' data collection paradigm, the expert enacts a wearable intelligent assistant, looking at the activities performed by the trainee exclusively from their egocentric point of view, answering questions when asked by the trainee, or proactively interacting with suggestions during the procedures. This unique data collection protocol enables Ego-EXTRA to capture a high-quality dialogue in which expert-level feedback is provided to the trainee. Two-way dialogues between experts and trainees are recorded, transcribed, and used to create a novel benchmark comprising more than 15k high-quality Visual Question Answer sets, which we use to evaluate Multimodal Large Language Models. The results show that Ego-EXTRA is challenging and highlight the limitations of current models when used to provide expert-level assistance to the user. The Ego-EXTRA dataset is publicly available to support the benchmark of egocentric video-language assistants: https://fpv-iplab.github.io/Ego-EXTRA/.
- Abstract(参考訳): ビデオ言語Egocentric Dataset for Expert-TRAineeを支援するEgo-EXTRAを提案する。
Ego-EXTRAは、プロシージャ活動(訓練生)を行う被験者の50時間のエゴセントリックなビデオと、自然言語を使ってガイダンスを提供し、特定の質問に答える現実世界の専門家によるガイドを特徴としている。
OZ'のデータ収集パラダイムの“魔法の魔法”に従って、専門家はウェアラブルなインテリジェントアシスタントを実践し、トレーニング担当者が行う活動は自我中心的な視点からのみ見るか、トレーニング担当者からの質問に答えるか、あるいはプロシージャの間提案と積極的に対話する。
このユニークなデータ収集プロトコルにより、Ego-EXTRAは訓練者に専門家レベルのフィードバックを提供する高品質な対話をキャプチャできる。
専門家と研修生の双方向の対話を記録、書き起こし、そして15k以上の高品質な視覚質問応答セットからなる新しいベンチマークを作成するために使用し、マルチモーダル大言語モデルの評価に使用した。
その結果、Ego-EXTRAは課題であり、ユーザに対して専門家レベルの支援を提供する際に、現在のモデルの制限を強調している。
Ego-EXTRAデータセットは、エゴセントリックなビデオ言語アシスタントのベンチマークをサポートするために公開されている。
関連論文リスト
- Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - EgoLife: Towards Egocentric Life Assistant [60.51196061794498]
我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。
我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。
この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。
私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
論文 参考訳(メタデータ) (2025-03-05T18:54:16Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。
EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。
クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文 参考訳(メタデータ) (2024-03-24T15:00:44Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。