論文の概要: HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models
- arxiv url: http://arxiv.org/abs/2605.10942v1
- Date: Mon, 11 May 2026 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.064477
- Title: HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models
- Title(参考訳): HarmoWAM:適応的世界行動モデルによる一般化と精密操作の調和
- Authors: Qiuxuan Feng, Jiale Yu, Jiaming Liu, Yueru Jia, Zhuangzhe Wu, Hao Chen, Zezhong Qian, Shuo Gu, Peng Jia, Siwei Ma, Shanghang Zhang,
- Abstract要約: 世界行動モデル(WAM)は、物理力学のモデリングによるロボット制御のための有望なパラダイムとして登場した。
HarmoWAMは、予測と反応の制御を統一するために世界モデルを完全に活用し、一般的なトランジットと正確な操作を可能にする。
実世界の6つのロボットタスクにまたがる3つのトレーニング未確認テスト環境を構築し、背景、位置、オブジェクトの意味のバリエーションをカバーした。
- 参考スコア(独自算出の注目度): 58.191567345416836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World Action Models (WAMs) have emerged as a promising paradigm for robot control by modeling physical dynamics. Current WAMs generally follow two paradigms: the "Imagine-then-Execute" approach, which uses video prediction to infer actions via inverse dynamics, and the "Joint Modeling" approach, which jointly models actions and video representations. Based on systematic experiments, we observe a fundamental trade-off between these paradigms: the former explicitly leverages world models for generalizable transit but lacks interaction precision, whereas the latter enables fine-grained, temporally coherent action generation but is constrained by the exploration space of the training distribution. Motivated by these findings, we propose HarmoWAM, an end-to-end WAM that fully leverages a world model to unify predictive and reactive control, enabling both generalizable transit and precise manipulation. Specifically, the world model provides spatio-temporal physical priors that condition two complementary action experts: a predictive expert that leverages latent dynamics for iterative action generation, and a reactive expert that directly infers actions from predicted visual evolution. To enable adaptive coordination, a Process-Adaptive Gating Mechanism is proposed to automatically determine the timing and location of switching between them. This allows the world model to drive the reactive expert to expand the exploration space and the predictive expert to perform precise interactions across different stages of a task. For evaluation, we construct three training-unseen test environments across six real-world robotic tasks, covering variations in background, position, and object semantics. Notably, HarmoWAM achieves strong zero-shot generalization across these scenarios, significantly outperforming prior state-of-the-art VLA models and WAMs by margins of 33% and 29%, respectively.
- Abstract(参考訳): 世界行動モデル(WAM)は、物理力学のモデリングによるロボット制御のための有望なパラダイムとして登場した。
現在のWAMは一般的に「Imagine-then-Execute」アプローチと「Joint Modeling」アプローチという2つのパラダイムを踏襲している。
前者は一般化可能なトランジットのために世界モデルを明示的に活用するが、相互作用の精度は低いが、後者は微粒で時間的に整合したアクション生成が可能であるが、訓練分布の探索空間によって制約される。
これらの知見に触発されて、予測と反応の制御を統一するために世界モデルを完全に活用し、一般化可能なトランジットと正確な操作を可能にする、エンドツーエンドのWAMであるHarmoWAMを提案する。
具体的には、世界モデルは2つの相補的なアクションエキスパートを条件として、反復的なアクション生成に潜時ダイナミクスを活用する予測エキスパートと、予測された視覚的進化からアクションを直接推論するリアクティブエキスパートという、時空間的な物理的前提を提供する。
適応調整を実現するため,プロセス適応ゲーティング機構を提案し,その切り替えタイミングと位置を自動的に決定する。
これにより、世界モデルでは、リアクティブ専門家が探索空間を拡大し、予測専門家がタスクのさまざまな段階にわたって正確なインタラクションを実行することができる。
評価のために,実世界の6つのロボットタスクを対象とし,背景,位置,対象のセマンティクスのバラツキを網羅した,トレーニング不要な3つのテスト環境を構築した。
特に、HarmoWAMはこれらのシナリオで強力なゼロショットの一般化を実現し、最先端のVLAモデルとWAMをそれぞれ33%と29%のマージンで大幅に上回っている。
関連論文リスト
- World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - SimpliHuMoN: Simplifying Human Motion Prediction [46.76089716445981]
本研究では,人間動作予測のための簡易かつ効果的なトランスフォーマーモデルを提案する。
このモデルは、ポーズ内の空間的依存関係とモーションシーケンス間の時間的関係を効果的に捉えるために、自己注意モジュールのスタックを使用する。
このシンプルで合理化されたエンドツーエンドモデルは、ポーズのみ、軌道のみ、およびタスク固有の修正なしに複合予測タスクを処理するのに十分な汎用性がある。
論文 参考訳(メタデータ) (2026-03-04T18:59:57Z) - HALO: A Unified Vision-Language-Action Model for Embodied Multimodal Chain-of-Thought Reasoning [23.266655371621965]
VLA(Vision-Language-Action)モデルは、ロボット操作において強力な性能を示しているが、長い水平またはアウト・オブ・ディストリビューションのシナリオでしばしば苦労している。
本稿では,マルチモーダル・チェーン・オブ・シークレット(EM-CoT)推論を可能にする統一VLAモデルであるHALOを提案する。
HALOをMixture-of-Transformers (MoT)アーキテクチャでインスタンス化し、セマンティック推論、視覚的予測、行動予測を専門の専門家に分離する。
論文 参考訳(メタデータ) (2026-02-24T18:04:31Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - AstraNav-World: World Model for Foresight Control and Consistency [40.07910402326578]
ダイナミックな環境での身体的ナビゲーションは、世界がどのように進化し、どのように行動が時間とともに広がるかを正確に予測する必要がある。
AstraNav-Worldは、未来の視覚状態とアクションシーケンスを共同で推論するエンド・ツー・エンドの世界モデルである。
本フレームワークは,拡散型ビデオジェネレータとビジョン言語ポリシーを統合し,同期ロールアウトを実現する。
論文 参考訳(メタデータ) (2025-12-25T15:31:24Z) - Next Interest Flow: A Generative Pre-training Paradigm for Recommender Systems by Modeling All-domain Movelines [8.895768051554162]
本稿では,eコマースレコメンデータシステムのための新しい生成事前学習パラダイムを提案する。
我々のモデルは,ユーザの将来の意図を表す密度の高いベクトル列であるNext Interest Flowを予測することを学ぶ。
パイプライン全体を実装した統合フレームワークである All-domain Moveline Evolution Network (AMEN) を提示する。
論文 参考訳(メタデータ) (2025-10-13T12:13:17Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。