論文の概要: Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning
- arxiv url: http://arxiv.org/abs/2506.13654v1
- Date: Mon, 16 Jun 2025 16:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.983198
- Title: Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning
- Title(参考訳): Ego-R1:超長尺ビデオレゾネート用チェイン・オブ・ツール
- Authors: Shulin Tian, Ruiqi Wang, Hongming Guo, Penghao Wu, Yuhao Dong, Xiuying Wang, Jingkang Yang, Hao Zhang, Hongyuan Zhu, Ziwei Liu,
- Abstract要約: Ego-R1は、超長い(日数や数週間)自我中心の動画を推論するためのフレームワークである。
人間の問題解決戦略に触発されたEgo-R1は、複雑な推論をモジュラーステップに分解する。
Ego-R1は、超長大な自我中心の動画を理解するというユニークな課題に効果的に取り組むことができることを示す。
- 参考スコア(独自算出の注目度): 53.00740744711591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Ego-R1, a novel framework for reasoning over ultra-long (i.e., in days and weeks) egocentric videos, which leverages a structured Chain-of-Tool-Thought (CoTT) process, orchestrated by an Ego-R1 Agent trained via reinforcement learning (RL). Inspired by human problem-solving strategies, CoTT decomposes complex reasoning into modular steps, with the RL agent invoking specific tools, one per step, to iteratively and collaboratively answer sub-questions tackling such tasks as temporal retrieval and multi-modal understanding. We design a two-stage training paradigm involving supervised finetuning (SFT) of a pretrained language model using CoTT data and RL to enable our agent to dynamically propose step-by-step tools for long-range reasoning. To facilitate training, we construct a dataset called Ego-R1 Data, which consists of Ego-CoTT-25K for SFT and Ego-QA-4.4K for RL. Furthermore, our Ego-R1 agent is evaluated on a newly curated week-long video QA benchmark, Ego-R1 Bench, which contains human-verified QA pairs from hybrid sources. Extensive results demonstrate that the dynamic, tool-augmented chain-of-thought reasoning by our Ego-R1 Agent can effectively tackle the unique challenges of understanding ultra-long egocentric videos, significantly extending the time coverage from few hours to a week.
- Abstract(参考訳): 強化学習(RL)によって訓練されたEgo-R1エージェントによって編成された構造的チェイン・オブ・ツール・ソート(CoTT)プロセスを活用する,超長い(日数や数週間)エゴセントリックなビデオの推論のための新しいフレームワークであるEgo-R1を紹介する。
人間の問題解決戦略にインスパイアされたCoTTは、複雑な推論をモジュラーステップに分解し、RLエージェントが特定のツールを1ステップずつ呼び出し、時間的探索やマルチモーダル理解のようなタスクに取り組むサブクエストに反復的かつ協調的に回答する。
我々は、CoTTデータとRLを用いた事前訓練言語モデルの教師付き微調整(SFT)を含む2段階の訓練パラダイムを設計し、エージェントが長距離推論のためのステップバイステップツールを動的に提案できるようにする。
トレーニングを容易にするために,SFTではEgo-CoTT-25K,RLではEgo-QA-4.4KからなるEgo-R1 Dataというデータセットを構築した。
さらに,我々のEgo-R1エージェントを,ハイブリッドソースから人間検証されたQAペアを含む1週間のビデオQAベンチマークEgo-R1 Benchで評価した。
我々のEgo-R1 Agentによる動的でツール強化されたチェーン・オブ・シント推論は、超長い自我中心の動画を理解するというユニークな課題を効果的に解決し、時間範囲を数時間から1週間に短縮することを示した。
関連論文リスト
- EgoVLM: Policy Optimization for Egocentric Video Understanding [2.397572703240721]
本稿では,視覚的理解と空間的時間的推論を統合した視覚言語モデルであるEgoVLMを紹介する。
EgoVLMは、モデル出力を人間ライクな推論ステップに合わせるように適応した強化学習手法であるグループ相対ポリシー最適化(GRPO)を介して微調整される。
我々のEgoVLMBは、非CoTエゴセントリックなデータに特化して訓練されており、ベースとなるQwen2.5-VL 3Bと7Bをそれぞれ14.33倍、Egoベンチマークで13.87精度で上回っている。
論文 参考訳(メタデータ) (2025-06-03T17:28:00Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - EgoLife: Towards Egocentric Life Assistant [60.51196061794498]
我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。
我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。
この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。
私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
論文 参考訳(メタデータ) (2025-03-05T18:54:16Z) - HEART: Achieving Timely Multi-Model Training for Vehicle-Edge-Cloud-Integrated Hierarchical Federated Learning [30.75025062952915]
AI対応のIoT of Vehicles(IoV)の急速な成長は、効率的な機械学習(ML)ソリューションを求めている。
車両はしばしば複数のMLタスクを同時に実行する必要がある。
本稿では,グローバルトレーニング遅延の最小化を目的とした動的VEC-HFLにおけるマルチモデルトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-17T03:15:03Z) - EgoPCA: A New Framework for Egocentric Hand-Object Interaction
Understanding [99.904140768186]
本稿では,EgoPCA(Probing, Curation and Adaption)によるEgo-HOI認識の基盤となる新しいフレームワークを提案する。
我々は、総合的なプレトレインセット、バランスの取れたテストセット、およびトレーニングファインタニング戦略を完備した新しいベースラインにコントリビュートする。
私たちは、私たちのデータと発見が、Ego-HOIの理解の新しい道を開くと信じています。
論文 参考訳(メタデータ) (2023-09-05T17:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。