論文の概要: PROWL: Prioritized Regret-Driven Optimization for World Model Learning
- arxiv url: http://arxiv.org/abs/2605.18803v1
- Date: Mon, 11 May 2026 14:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.342226
- Title: PROWL: Prioritized Regret-Driven Optimization for World Model Learning
- Title(参考訳): PROWL:世界モデル学習のための優先順位付き回帰駆動最適化
- Authors: Ahmet H. Güzel, Jenny Seidenschwarz, Benjamin Graham, Jonathan Sadeghi, Jeffrey Hawke, Jack Parker-Holder, Ilija Bogunovic,
- Abstract要約: 我々は,拡散に基づく世界モデルの高次軌道を公開するための政策を訓練する,KL制約の逆行カリキュラムを導入する。
提案手法をMineRLフレームワークで実装し, 既設のアウト・オブ・ディストリビューション・トラジェクトリで評価する。
- 参考スコア(独自算出の注目度): 20.10187986360715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern action-conditioned video world models achieve strong short-horizon visual realism, yet remain unreliable on rare, interaction-critical transitions that dominate downstream planning and policy performance. Because passive demonstration data systematically under-samples these high-impact regimes, improving robustness requires actively eliciting model failures rather than relying on their natural occurrence. We introduce a KL-constrained adversarial curriculum in which a policy is trained to expose high-error trajectories of a diffusion-based world model while remaining close to the behavior distribution. The world model is continuously fine-tuned on these adversarially discovered trajectories, yielding an adversarial training loop that converts rare failures into a stable, near-distribution training signal without drifting into out-of-distribution exploitation. To maintain pressure on unresolved weaknesses as the model improves, we propose a Prioritized Adversarial Trajectory (PAT) buffer that re-ranks trajectories based on prediction error, action fidelity, and learning progress, focusing training on unresolved failure modes rather than repeatedly revisiting solved cases. We implement our approach in the MineRL framework and evaluate it on held-out out-of-distribution trajectories; PROWL improves robustness over models trained on passive data alone, reveals reward-hacking behaviors under weak behavioral constraints, and demonstrates that effective adversarial world-model training critically depends on balancing exploratory failure discovery with explicit behavioral regularization. Our results suggest that scalable world models benefit not only from larger datasets, but also from selectively generating informative training data.
- Abstract(参考訳): 現代のアクション条件付きビデオワールドモデルは、強力な短期的視覚リアリズムを実現するが、下流の計画と政策パフォーマンスを支配している稀な相互作用クリティカルな遷移には信頼できない。
受動的実証データは、これらの高インパクトな体制を体系的にアンダーサンプリングするため、堅牢性を改善するには、自然発生に頼るのではなく、モデル障害を積極的に引き出す必要がある。
我々は,拡散型世界モデルの高誤差軌道を公開するために政策を訓練し,行動分布に近づきながら,KL制約付き逆行カリキュラムを導入する。
世界モデルは、これらの逆向きに発見された軌道上で連続的に微調整され、まれな故障を分布外悪用に流すことなく、安定したほぼ分布に近い訓練信号に変換する逆方向の訓練ループが生成される。
モデルが改善するにつれて未解決の弱点に対する圧力を抑えるため,予測誤差,行動忠実度,学習進捗度に基づいてトラジェクトリを再ランクする優先的逆トラジェクトリ(PAT)バッファを提案する。
我々は、MineRLフレームワークにアプローチを導入し、それを評価する。POWLは受動的データだけで訓練されたモデルよりも頑健さを向上し、弱い行動制約下での報酬ハッキング行動を明らかにし、効果的に敵対的な世界モデルトレーニングは、明示的な行動規則化による探索的失敗発見のバランスに重大な依存があることを実証する。
この結果から,スケーラブルな世界モデルは,大規模データセットだけでなく,情報的トレーニングデータの生成にも有用であることが示唆された。
関連論文リスト
- AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models [75.214287449744]
我々は,Impartial World Modelを中心に構築されたポストトレーニング政策改善のためのフレームワークを紹介する。
私たちの主な貢献は、このモデルに危険について正直であることを教えることです。
大規模な実験を通じて、我々のモデルは失敗を予測する上で、ベースラインを著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2025-11-25T13:57:24Z) - Look Before Leap: Look-Ahead Planning with Uncertainty in Reinforcement Learning [4.902161835372679]
モデルに基づく探索計画を用いた不確実性を考慮したポリシー最適化のための新しいフレームワークを提案する。
政策最適化フェーズでは、不確実性駆動型探索政策を活用し、多様なトレーニングサンプルを積極的に収集する。
我々のアプローチは、様々な状態/行動空間と報酬構造を持つタスクに柔軟性と適用性を提供します。
論文 参考訳(メタデータ) (2025-03-26T01:07:35Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Towards Unraveling and Improving Generalization in World Models [29.54936027897926]
この研究は、世界モデルの堅牢性と一般化能力を深く理解することを目的としている。
遅延表現誤差がロバスト性および一般化に与える影響を特徴付ける。
非ゼロドリフトの複合的誤り伝播効果を軽減するためのヤコビ正規化手法を提案する。
論文 参考訳(メタデータ) (2024-12-31T00:15:43Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。