論文の概要: From Perception to Planning: Evolving Ego-Centric Task-Oriented Spatiotemporal Reasoning via Curriculum Learning
- arxiv url: http://arxiv.org/abs/2604.10517v1
- Date: Sun, 12 Apr 2026 08:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.069865
- Title: From Perception to Planning: Evolving Ego-Centric Task-Oriented Spatiotemporal Reasoning via Curriculum Learning
- Title(参考訳): 認知から計画へ:カリキュラム学習によるエゴ中心タスク指向時空間推論の展開
- Authors: Xiaoda Yang, Yuxiang Liu, Shenzhou Gao, Can Wang, Jingyang Xue, Lixin Yang, Yao Mu, Tao Jin, Shuicheng Yan, Zhimeng Zhang, Zhou Zhao,
- Abstract要約: タスクベースの時間的推論を学習するためのカリキュラムベースのフレームワークであるEgoTSRを提案する。
EgoTSRは、明示的な空間的理解からタスク状態評価への進化を前提に構築されている。
実験により、EgoTSRはバイアスを効果的に排除し、長距離論理推論タスクにおいて92.4%の精度を達成した。
- 参考スコア(独自算出の注目度): 79.65573577667944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern vision-language models achieve strong performance in static perception, but remain limited in the complex spatiotemporal reasoning required for embodied, egocentric tasks. A major source of failure is their reliance on temporal priors learned from passive video data, which often leads to spatiotemporal hallucinations and poor generalization in dynamic environments. To address this, we present EgoTSR, a curriculum-based framework for learning task-oriented spatiotemporal reasoning. EgoTSR is built on the premise that embodied reasoning should evolve from explicit spatial understanding to internalized task-state assessment and finally to long-horizon planning. To support this paradigm, we construct EgoTSR-Data, a large-scale dataset comprising 46 million samples organized into three stages: Chain-of-Thought (CoT) supervision, weakly supervised tagging, and long-horizon sequences. Extensive experiments demonstrate that EgoTSR effectively eliminates chronological biases, achieving 92.4% accuracy on long-horizon logical reasoning tasks while maintaining high fine-grained perceptual precision, significantly outperforming existing open-source and closed-source state-of-the-art models.
- Abstract(参考訳): 現代の視覚言語モデルは、静的知覚において強い性能を達成するが、エンボディされたエゴセントリックなタスクに必要な複雑な時空間推論に制限される。
失敗の主な原因は、受動的ビデオデータから学んだ時間的先行性に依存しており、しばしば時空間幻覚と動的環境における一般化の低さにつながる。
そこで本稿では,タスク指向の時空間推論を学習するためのカリキュラムベースのフレームワークであるEgoTSRを提案する。
EgoTSRは、具体的推論を明示的な空間的理解から内部化されたタスク状態評価、最終的には長期計画へと進化させるという前提に基づいて構築されている。
このパラダイムをサポートするために,4600万のサンプルからなる大規模データセットであるEgoTSR-Dataを構築した。
大規模な実験により、EgoTSRは時間バイアスを効果的に排除し、長い水平論理的推論タスクにおいて92.4%の精度を達成し、高精度な知覚精度を維持し、既存のオープンソースおよびクローズドソースの状態を著しく上回ることを示した。
関連論文リスト
- A Progressive Training Strategy for Vision-Language Models to Counteract Spatio-Temporal Hallucinations in Embodied Reasoning [49.61652671596548]
「多像幻覚推論」では、前頭と時頭クエリ間の大規模なパフォーマンス低下は、真に理解するのではなく、表面的なショートカットへの依存を示す。
これを軽減するために、我々は、チェーンステップへの詳細な推論と決定的な判断に基づく、時間的連鎖構築という新しいデータセットを開発する。
実験により,本手法は精度を向上するだけでなく,70%以上から6.53%まで,前向きのパフォーマンスギャップも改善することが示された。
論文 参考訳(メタデータ) (2026-04-12T07:48:44Z) - EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning [63.010793398283134]
本研究では,多モーダルな言語モデルが,エゴセントリックな視点から行動の長期的物理的帰結を確実に推論できるかどうかを考察する。
EXPLORE-Benchは,様々なシナリオにまたがる実の1人称ビデオから算出したベンチマークである。
プロプライエタリでオープンソースのMLLMの実験では、人間にとって大きなパフォーマンスギャップが示される。
論文 参考訳(メタデータ) (2026-03-10T14:33:44Z) - EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking [34.29831801830779]
EgoReasonerは、各タスクの認知構造に推論の足場と報酬信号を調整するフレームワークである。
本モデルでは,HD-EPICベンチマークで平均37.5%の精度を達成し,Qwen2.5-VL-7Bを10点以上上回った。
論文 参考訳(メタデータ) (2026-03-06T18:49:04Z) - daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently [35.39097522391409]
大規模言語モデル(LLM)は短期的なタスクで優れており、それらを長期のエージェント合成に拡張することは依然として困難である。
本稿では,PRチェーンから構造化監視を体系的にマイニングするdaVinci-Agencyを提案する。
DaVinci-AgencyのPR基底構造は、本質的には、永続的なゴールサイクルの振る舞いを教えるのに不可欠な因果依存性と反復的な洗練を保っている。
論文 参考訳(メタデータ) (2026-02-02T13:23:39Z) - GSR: Learning Structured Reasoning for Embodied Manipulation [10.756456261056867]
グラウンドド・シーングラフ推論(グラウンドド・シーングラフ・レアソニング、英語: Grounded Scene-graph Reasoning、GSR)は、セマンティックグラウンドド・シーングラフ上の遷移として、世界状態の進化を明示的にモデル化する構造的推論パラダイムである。
GSRは、物理的に接地された空間における行動条件、結果、および目標満足度に関する明確な推論を可能にする。
論文 参考訳(メタデータ) (2026-02-02T06:07:42Z) - STReasoner: Empowering LLMs for Spatio-Temporal Reasoning in Time Series via Spatial-Aware Reinforcement Learning [16.11676643415448]
時系列における時空間推論には、時間力学、空間依存、テキストコンテキストの明示的な合成が含まれる。
この能力は、交通ネットワークや電力網、病気の伝播といったシステムにおける高い意思決定に不可欠である。
このギャップに対処するために、エチオロジー推論、エンティティ識別、相関推論、コンテキスト内予測を含む4つのコアタスクからなるベンチマークであるST-Benchを導入する。
次に,STReasonerを提案し,LLMが時系列,グラフ構造,テキストを明示的な推論のために統合できるようにする。
論文 参考訳(メタデータ) (2026-01-06T18:46:12Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-27T17:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。