論文の概要: Enhancing Policy Learning with World-Action Model
- arxiv url: http://arxiv.org/abs/2603.28955v1
- Date: Mon, 30 Mar 2026 19:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.757315
- Title: Enhancing Policy Learning with World-Action Model
- Title(参考訳): World-Action Modelによる政策学習の強化
- Authors: Yuci Han, Alper Yilmaz,
- Abstract要約: World-Action Model (WAM) は行動規則化された世界モデルであり、将来の視覚的観察と状態遷移を駆動する行動について共同で理由を定めている。
WAMは、遅延状態遷移からアクションを予測するDreamerV2に、逆ダイナミクスの目的を組み込んでいる。
我々は、CALVINベンチマークから8つの操作タスクにわたるポリシー学習の強化について、WAMを評価した。
- 参考スコア(独自算出の注目度): 4.941630596191806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the World-Action Model (WAM), an action-regularized world model that jointly reasons over future visual observations and the actions that drive state transitions. Unlike conventional world models trained solely via image prediction, WAM incorporates an inverse dynamics objective into DreamerV2 that predicts actions from latent state transitions, encouraging the learned representations to capture action-relevant structure critical for downstream control. We evaluate WAM on enhancing policy learning across eight manipulation tasks from the CALVIN benchmark. We first pretrain a diffusion policy via behavioral cloning on world model latents, then refine it with model-based PPO inside the frozen world model. Without modifying the policy architecture or training procedure, WAM improves average behavioral cloning success from 59.4% to 71.2% over DreamerV2 and DiWA baselines. After PPO fine-tuning, WAM achieves 92.8% average success versus 79.8% for the baseline, with two tasks reaching 100%, using 8.7x fewer training steps.
- Abstract(参考訳): 本稿では、将来の視覚的観察と状態遷移を駆動するアクションを共同で理由づけた行動規則化された世界モデルであるワールド・アクション・モデル(WAM)を提案する。
イメージ予測のみで訓練された従来の世界モデルとは異なり、WAMはDreamerV2に逆ダイナミクスの目的を取り入れ、遅延状態遷移からのアクションを予測し、下流制御に不可欠なアクション関連構造を捉えるよう学習した表現を奨励する。
我々は、CALVINベンチマークから8つの操作タスクにわたるポリシー学習の強化について、WAMを評価した。
まず, 凍結した世界モデル内のモデルベースPPOを用いて, 世界モデルラテント上での行動クローニングによる拡散政策の事前学習を行った。
ポリシーアーキテクチャやトレーニング手順を変更することなく、WAMは平均的な行動クローニングの成功を59.4%から71.2%に改善した。
PPOの微調整の後、WAMは平均的な成功率92.8%とベースラインの79.8%を達成し、2つのタスクが100%に達する。
関連論文リスト
- Better World Models Can Lead to Better Post-Training Performance [9.713688760042544]
本研究では,トランスフォーマーの内部表現と下流能力に,世界モデリングの目的がどう影響するかを考察する。
我々は、標準的な次世代予測と2つの明示的な世界モデリング戦略を比較した。
明示的な世界モデリングは、より線形にデオード可能で、因果的にステアブルな状態表現をもたらす。
論文 参考訳(メタデータ) (2025-12-03T03:13:20Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Internalizing World Models via Self-Play Finetuning for Agentic RL [65.96875390986655]
エージェントとしての大規模言語モデル(LLM)は、しばしばアウト・オブ・ディストリビューション(OOD)のシナリオで苦労する。
状態表現と遷移モデリングという2つのコンポーネントに分解することで、この世界モデルをエンコードする方法を示す。
SPAは,世界モデルを学習するために,セルフプレイ指導による微調整段階を通じてポリシーを冷やし始める,シンプルな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-16T18:03:39Z) - CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning [7.780242426487376]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのための新しい強化学習フレームワークであるチャンクドRLを提案する。
このフレームワーク内では、VLAモデルの顕著な特徴であるアクションチャンキングを組み込むために、時間差(TD)学習を拡張する。
次に、限定的なデモセットを用いてVLAモデルを微調整するアルゴリズムであるCO-RFTを提案する。
論文 参考訳(メタデータ) (2025-08-04T09:11:48Z) - Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy [10.596344084789434]
VLA(Vision-Language-Action)モデルは、現実世界のロボット操作において大きな可能性を示している。
これらのモデルを教師付き学習で微調整することで、制限された一貫性のないデモのために堅牢なパフォーマンスを達成することができる。
我々は,オフラインとオンラインのファインチューニングで構成されるConRFTという,VLAモデルのための強化されたファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-08T05:01:17Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy [13.819070455425075]
我々は、すべての歴史的政策に対する経験的状態-行動訪問分布に適合するダイナミクスモデルを学習する。
そこで我々はtextitPolicy-adapted Dynamics Model Learning (PDML) という新しい動的モデル学習手法を提案する。
MuJoCoにおける一連の連続制御環境の実験では、PDMLは、最先端のモデルベースRL法と組み合わせて、サンプル効率と高い性能で大幅に改善されている。
論文 参考訳(メタデータ) (2022-07-25T12:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。