論文の概要: EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT
- arxiv url: http://arxiv.org/abs/2510.23569v1
- Date: Mon, 27 Oct 2025 17:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.646816
- Title: EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT
- Title(参考訳): EgoThinker: Egocentric Reasoning with Spatio-Temporal CoT
- Authors: Baoqi Pei, Yifei Huang, Jilan Xu, Yuping He, Guo Chen, Fei Wu, Yu Qiao, Jiangmiao Pang,
- Abstract要約: EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
- 参考スコア(独自算出の注目度): 56.24624833924252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric video reasoning centers on an unobservable agent behind the camera who dynamically shapes the environment, requiring inference of hidden intentions and recognition of fine-grained interactions. This core challenge limits current multimodal large language models MLLMs, which excel at visible event reasoning but lack embodied, first-person understanding. To bridge this gap, we introduce EgoThinker, a novel framework that endows MLLMs with robust egocentric reasoning capabilities through spatio-temporal chain-of-thought supervision and a two-stage learning curriculum. First, we introduce EgoRe-5M, a large-scale egocentric QA dataset constructed from 13M diverse egocentric video clips. This dataset features multi-minute segments annotated with detailed CoT rationales and dense hand-object grounding. Second, we employ SFT on EgoRe-5M to instill reasoning skills, followed by reinforcement fine-tuning RFT to further enhance spatio-temporal localization. Experimental results show that EgoThinker outperforms existing methods across multiple egocentric benchmarks, while achieving substantial improvements in fine-grained spatio-temporal localization tasks. Full code and data are released at https://github.com/InternRobotics/EgoThinker.
- Abstract(参考訳): エゴセントリックなビデオ推論は、環境を動的に形作るカメラの背後にある観察不能なエージェントに焦点を合わせ、隠れた意図の推論ときめ細かい相互作用の認識を必要とする。
このコアチャレンジは、現在のマルチモーダルな大規模言語モデルMLLMを制限する。
このギャップを埋めるために,時空間連鎖監視と2段階学習カリキュラムを通じて,MLLMに堅牢なエゴセントリック推論能力を与える新しいフレームワークであるEgoThinkerを紹介した。
まずEgoRe-5Mを紹介する。これは大規模なエゴセントリックなQAデータセットで、1300万の多様なエゴセントリックなビデオクリップから構築されている。
このデータセットは、詳細なCoT論理と密集した手オブジェクトグラウンドでアノテートされた複数分間のセグメントを特徴としている。
第2に,SFTをEgoRe-5Mに応用して推論スキルを注入し,さらに強化微調整RFTを用いて時空間局所化をさらに促進する。
実験の結果、EgoThinkerは複数のエゴセントリックなベンチマークで既存の手法よりも優れており、微粒な時空間局所化タスクでは大幅に改善されていることがわかった。
完全なコードとデータはhttps://github.com/InternRobotics/EgoThinker.comで公開されている。
関連論文リスト
- Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention [58.05340906967343]
Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。
本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
論文 参考訳(メタデータ) (2025-12-30T16:22:14Z) - EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering [59.94048858464922]
EgoCrossは、EgocentricQAにおけるMLLMのクロスドメイン一般化を評価するためのベンチマークである。
EgoCrossは、手術、産業、極端なスポーツ、動物の観点からの4つの分野をカバーしている。
798のビデオクリップにまたがる約1000のQAペアで構成され、予測、認識、ローカライゼーション、カウントという4つの重要なQAタスクにまたがる。
論文 参考訳(メタデータ) (2025-08-14T15:11:20Z) - Fine-grained Spatiotemporal Grounding on Egocentric Videos [13.319346673043286]
EgoMaskは、エゴセントリックビデオの微細時間グラウンド化のための最初のピクセルレベルのベンチマークである。
EgoMaskは、式やオブジェクトマスクを参照するアノテーションパイプラインによって構築されている。
また、モデル開発を容易にする大規模なトレーニングデータセットであるEgoMask-Trainも作成しています。
論文 参考訳(メタデータ) (2025-08-01T10:53:27Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos [26.930652137352197]
我々は、EgoToMというビデオ質問応答ベンチマークを導入し、エゴセントリックなドメインに対する理論・オブ・ミンドの評価を拡張した。
因果ToMモデルを用いて、Ego4Dデータセットのマルチ選択ビデオQAインスタンスを生成し、カメラ装着者の目標、信念、次のアクションを予測する能力をベンチマークする。
これら3つの相互接続型推論問題に対して,人間と芸術マルチモーダル大言語モデル(MLLM)の性能について検討した。
論文 参考訳(メタデータ) (2025-03-28T05:10:59Z) - Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos [51.8995932557911]
EgoTempoは、エゴセントリックドメインにおける時間的理解を評価するために設計されたデータセットである。
本稿では,ベンチマークにおける最先端のマルチモーダル言語モデル (MLLM) が,テキストやフレームのみを入力として,驚くほど高い性能を実現していることを示す。
EgoTempoがこの分野の新たな研究を触媒し、時間的ダイナミクスの複雑さをよりよく捉えたモデルに刺激を与えることを期待している。
論文 参考訳(メタデータ) (2025-03-17T18:50:36Z) - Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。