論文の概要: EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos
- arxiv url: http://arxiv.org/abs/2503.22152v1
- Date: Fri, 28 Mar 2025 05:10:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.572751
- Title: EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos
- Title(参考訳): EgoToM:エゴセントリックビデオからの心推論のベンチマーク理論
- Authors: Yuxuan Li, Vijay Veerabadran, Michael L. Iuzzolino, Brett D. Roads, Asli Celikyilmaz, Karl Ridgeway,
- Abstract要約: 我々は、EgoToMというビデオ質問応答ベンチマークを導入し、エゴセントリックなドメインに対する理論・オブ・ミンドの評価を拡張した。
因果ToMモデルを用いて、Ego4Dデータセットのマルチ選択ビデオQAインスタンスを生成し、カメラ装着者の目標、信念、次のアクションを予測する能力をベンチマークする。
これら3つの相互接続型推論問題に対して,人間と芸術マルチモーダル大言語モデル(MLLM)の性能について検討した。
- 参考スコア(独自算出の注目度): 26.930652137352197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EgoToM, a new video question-answering benchmark that extends Theory-of-Mind (ToM) evaluation to egocentric domains. Using a causal ToM model, we generate multi-choice video QA instances for the Ego4D dataset to benchmark the ability to predict a camera wearer's goals, beliefs, and next actions. We study the performance of both humans and state of the art multimodal large language models (MLLMs) on these three interconnected inference problems. Our evaluation shows that MLLMs achieve close to human-level accuracy on inferring goals from egocentric videos. However, MLLMs (including the largest ones we tested with over 100B parameters) fall short of human performance when inferring the camera wearers' in-the-moment belief states and future actions that are most consistent with the unseen video future. We believe that our results will shape the future design of an important class of egocentric digital assistants which are equipped with a reasonable model of the user's internal mental states.
- Abstract(参考訳): 我々は、EgoToMという新しいビデオ質問応答ベンチマークを導入し、このベンチマークは、理論・オブ・ミンド(ToM)の評価をエゴセントリックな領域に拡張する。
因果ToMモデルを用いて、Ego4Dデータセットのマルチ選択ビデオQAインスタンスを生成し、カメラ装着者の目標、信念、次のアクションを予測する能力をベンチマークする。
これら3つの相互接続型推論問題に対して,人間と最先端のマルチモーダル大言語モデル(MLLM)の性能について検討した。
評価の結果,エゴセントリックビデオからの目標推定において,MLLMの精度は人間レベルに近いことがわかった。
しかし、MLLM(100B以上のパラメータでテストした最大のものを含む)は、カメラ装着者のインザモーメントの信念状態と、目に見えない未来のビデオと最も一致した未来のアクションを推測する際に、人間のパフォーマンスに欠ける。
我々は,ユーザの内的精神状態の合理的なモデルを備えた,エゴセントリックなデジタルアシスタントの今後の設計を形作ると信じている。
関連論文リスト
- Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos [51.8995932557911]
EgoTempoは、エゴセントリックドメインにおける時間的理解を評価するために設計されたデータセットである。
本稿では,ベンチマークにおける最先端のマルチモーダル言語モデル (MLLM) が,テキストやフレームのみを入力として,驚くほど高い性能を実現していることを示す。
EgoTempoがこの分野の新たな研究を触媒し、時間的ダイナミクスの複雑さをよりよく捉えたモデルに刺激を与えることを期待している。
論文 参考訳(メタデータ) (2025-03-17T18:50:36Z) - Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - EgoMe: A New Dataset and Challenge for Following Me via Egocentric View in Real World [12.699670048897085]
人間の模倣学習において、模倣者は、通常、自我中心の視点を基準として、自我中心の視点から自我中心の視点に観察された振る舞いを自然に伝達する。
実世界における模倣者の自我中心的な視点を通じて、人間の模倣学習のプロセスに従うためのEgoMeを紹介する。
我々のデータセットには7902対のエゴビデオが含まれており、様々な現実のシナリオにおいて多様な日々の行動にまたがっている。
論文 参考訳(メタデータ) (2025-01-31T11:48:22Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos [27.766405152248055]
手の軌道予測は人間の動きのパターンを理解する上で重要な役割を担っている。
しかし,高レベルの人間の意図を合理的な時間的因果関係と一致させることは,エゴセントリックなビデオのみが利用可能である場合には困難である。
拡散モデルを用いて将来のハンドウェイポイントを予測するMADiffと呼ばれる新しいハンドトラジェクトリ予測手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T12:06:33Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。