論文の概要: Being-H0.7: A Latent World-Action Model from Egocentric Videos
- arxiv url: http://arxiv.org/abs/2605.00078v1
- Date: Thu, 30 Apr 2026 14:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.678756
- Title: Being-H0.7: A Latent World-Action Model from Egocentric Videos
- Title(参考訳): エイブ・H0.7:エゴセントリックなビデオから生まれた世界アクション・モデル
- Authors: Hao Luo, Wanpeng Zhang, Yicheng Feng, Sipeng Zheng, Haiweng Xu, Chaoyi Xu, Ziheng Xi, Yuhui Fu, Zongqing Lu,
- Abstract要約: 我々は、VLAスタイルのポリシーに未来を意識した推論をもたらす潜在的世界行動モデルであるBeing-H0.7を提案する。
being-H0.7は、知覚と行動の間の学習可能な遅延クエリを、コンパクトな推論インターフェイスとして挿入する。
- 参考スコア(独自算出の注目度): 32.77431338471086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-Language-Action models (VLAs) have advanced generalist robot control by mapping multimodal observations and language instructions directly to actions, but sparse action supervision often encourages shortcut mappings rather than representations of dynamics, contact, and task progress. Recent world-action models introduce future prediction through video rollouts, yet pixel-space prediction is a costly and indirect substrate for control, as it may model visual details irrelevant to action generation and introduces substantial training or inference overhead. We present Being-H0.7, a latent world-action model that brings future-aware reasoning into VLA-style policies without generating future frames. Being-H0.7 inserts learnable latent queries between perception and action as a compact reasoning interface, and trains them with a future-informed dual-branch design: a deployable prior branch infers latent states from the current context, while a training-only posterior branch replaces the queries with embeddings from future observations. Jointly aligning the two branches at the latent reasoning space leads the prior branch to reason future-aware, action-useful structure from current observations alone. At inference, Being-H0.7 discards the posterior branch and performs no visual rollout. Experiments across six simulation benchmarks and diverse real-world tasks show that Being-H0.7 achieves state-of-the-art or comparable performance, combining the predictive benefits of world models with the efficiency and deployability of direct VLA policies.
- Abstract(参考訳): VLA(Visual-Language-Action Model)は、マルチモーダルな観察と言語指示を直接アクションにマッピングすることで、高度な汎用的なロボット制御を持つが、疎い行動監督は、動的、接触、タスク進捗の表現よりも、ショートカットマッピングを奨励することが多い。
最近のワールドアクションモデルは、ビデオロールアウトを通じて将来の予測を導入するが、ピクセルスペース予測は、アクション生成とは無関係に視覚的詳細をモデル化し、相当なトレーニングや推論オーバーヘッドを導入するため、コストが高く間接的な制御基板である。
我々は、将来的なフレームを生成することなく、VLAスタイルのポリシーに未来を意識した推論をもたらす、潜在的世界行動モデルであるBeing-H0.7を提案する。
A-H0.7は、知覚と行動の間の学習可能な遅延クエリをコンパクトな推論インターフェースとして挿入し、将来のインフォームドなデュアルブランチ設計でそれらをトレーニングする: デプロイ可能な事前ブランチは現在のコンテキストから遅延状態を推論し、トレーニング専用の後続ブランチは将来の観測から埋め込みでクエリを置き換える。
後続の推論空間で2つの枝を協調的に整列させることで、前枝は現在の観測のみから将来の認識、行動に有用な構造を推論する。
推測では、Being-H0.7は後枝を捨て、視覚的なロールアウトを行わない。
6つのシミュレーションベンチマークと多様な実世界のタスクの実験により、Beat-H0.7は最先端または同等のパフォーマンスを達成し、世界モデルの予測上の利点と直接VLAポリシーの効率性とデプロイ性を組み合わせた。
関連論文リスト
- Learning Vision-Language-Action World Models for Autonomous Driving [15.103497388527943]
VLA(Vision-Language-Action)モデルは最近、エンドツーエンドの自動運転において顕著な進歩を遂げている。
VLAモデルは時相力学と世界整合性の明示的なモデリングを欠いていることが多い。
VLA-World(VLA-World)は、予測的想像力と反射的推論を統一する、シンプルで効果的なVLA世界モデルである。
論文 参考訳(メタデータ) (2026-04-10T07:38:05Z) - LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - GigaWorld-Policy: An Efficient Action-Centered World--Action Model [50.107640832046464]
GigaWorld-Policyはアクション中心のWAMで、2Dピクセルアクションのダイナミクスを学習し、オプションのビデオ生成で効率的なアクションデコーディングを可能にする。
実世界のロボットプラットフォームでの実験結果によると、GigaWorld-Policyは主要なWAMベースラインであるMotusの9倍高速で動作する。
論文 参考訳(メタデータ) (2026-03-18T00:52:02Z) - FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model [73.03346643967309]
我々は、効果的な共同運動予測モデルには、時間的連続性と視覚的条件による監督的疎結合の両方が必要であると論じる。
FutureVLAは、視覚情報と運動情報を最初に分離することで、関節振動子埋め込みを抽出するように設計されている。
訓練後の段階において、我々は遅延埋め込みアライメント戦略を採用し、様々な下流VLAモデルによりこれらの時間的先行を内部化することができる。
論文 参考訳(メタデータ) (2026-03-11T12:39:55Z) - Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - Ego-centric Predictive Model Conditioned on Hand Trajectories [52.531681772560724]
自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
論文 参考訳(メタデータ) (2025-08-27T13:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。