論文の概要: Ego2World: Compiling Egocentric Cooking Videos into Executable Worlds for Belief-State Planning
- arxiv url: http://arxiv.org/abs/2605.13335v1
- Date: Wed, 13 May 2026 10:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.99351
- Title: Ego2World: Compiling Egocentric Cooking Videos into Executable Worlds for Belief-State Planning
- Title(参考訳): Ego2World:エゴセントリックなCooking Videoを実行可能な世界へコンパイルする
- Authors: Qinchuan Cheng, Zhantao Gong, Pengzhan Sun, Angela Yao, Xulei Yang, Shijie Li,
- Abstract要約: Ego2Worldは、エゴセントリックな調理動画を、グラフ遷移ルールによって管理される実行可能な象徴的世界に変換する実行可能なベンチマークである。
評価中、シミュレータは隠された世界グラフを保持し、エージェントはローカルな観測と実行フィードバックのみを使用して、独自の部分的信念グラフを計画する。
この分離により、エージェントは真の世界の状態を観察することなく、メモリとリプランを更新せざるを得なくなる。
- 参考スコア(独自算出の注目度): 55.43343782036886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied agents in household environments must plan under partial observation: they need to remember objects, track state changes, and recover when actions fail. Existing benchmarks only partially test this ability. Egocentric video datasets capture realistic human activities but remain passive, while interactive simulators support execution but rely on synthetic scenes and hand-crafted dynamics, introducing a sim-to-real gap and often assuming fully observable state. We introduce Ego2World, an executable benchmark that turns egocentric cooking videos into executable symbolic worlds governed by graph-transition rules. Built on HD-EPIC, Ego2World derives reusable transition rules from video annotations and executes them in a hidden symbolic world graph. During evaluation, the simulator maintains the hidden world graph, while the agent plans over its own partial belief graph using only local observations and execution feedback. This separation forces agents to update memory and replan without observing the true world state. Experiments show that action-overlap scores overestimate physical-state success, and that persistent belief memory improves task completion while reducing repeated visual exploration -- suggesting that belief maintenance should be a first-class target of embodied-agent evaluation.
- Abstract(参考訳): 家庭環境における身体的エージェントは、部分的に観察され、オブジェクトを記憶し、状態の変化を追跡し、アクションが失敗した時に回復する必要がある。
既存のベンチマークはこの能力を部分的にテストするだけである。
エゴセントリックなビデオデータセットは、現実的な人間の活動をキャプチャするが、受動的のままであり、インタラクティブなシミュレータは実行をサポートするが、合成シーンと手作りのダイナミックスに依存し、シミュレートから現実のギャップを導入し、しばしば完全に観測可能な状態と仮定する。
Ego2Worldは、エゴセントリックな調理動画を、グラフ遷移ルールによって管理される実行可能な象徴的世界に変換する実行可能なベンチマークである。
HD-EPIC上に構築されたEgo2Worldは、ビデオアノテーションから再利用可能なトランジションルールを導き、それらを隠されたシンボルの世界グラフで実行する。
評価中、シミュレータは隠された世界グラフを維持し、エージェントはローカルな観測と実行フィードバックのみを使用して、独自の部分的信念グラフを計画する。
この分離により、エージェントは真の世界の状態を観察することなく、メモリとリプランを更新せざるを得なくなる。
実験では、アクションオーバーラップスコアは身体的成功を過大評価し、永続的な信念記憶は、繰り返し視覚的な探索を減らしながらタスク完了を改善する。
関連論文リスト
- EgoSim: Egocentric World Simulator for Embodied Interaction Generation [93.11209644808783]
EgoSimは、空間的に一貫した対話ビデオを生成するクローズドループエゴセントリックな世界シミュレータである。
連続シミュレーションのために、基礎となる3Dシーン状態を継続的に更新する。
EgoSimは、視覚的品質、空間的整合性、一般化の点で、既存の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2026-04-01T15:00:46Z) - EgoForge: Goal-Directed Egocentric World Simulator [26.712565464146937]
EgoForgeはゴール指向の世界シミュレータで、最小限の静的入力から一対一のビデオロールアウトを生成する。
VideoDiffusionNFTは、拡散サンプリング中の目標完了、時間的因果性、シーンの一貫性、知覚的忠実度を最適化する軌道レベルの報酬誘導改良である。
論文 参考訳(メタデータ) (2026-03-20T17:46:55Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction [35.24704057622881]
身体的認知は、知性は受動的観察よりも知覚的相互作用から生じると主張する。
我々は,エゴセントリックな相互作用から世界モデリングとしての認知の具体化を評価するベンチマークENACTを紹介する。
論文 参考訳(メタデータ) (2025-11-26T00:06:02Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - EgoMe: A New Dataset and Challenge for Following Me via Egocentric View in Real World [12.699670048897085]
人間の模倣学習において、模倣者は、通常、自我中心の視点を基準として、自我中心の視点から自我中心の視点に観察された振る舞いを自然に伝達する。
実世界における模倣者の自我中心的な視点を通じて、人間の模倣学習のプロセスに従うためのEgoMeを紹介する。
我々のデータセットには7902対のエゴビデオが含まれており、様々な現実のシナリオにおいて多様な日々の行動にまたがっている。
論文 参考訳(メタデータ) (2025-01-31T11:48:22Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。