論文の概要: Fixing That Free Lunch: When, Where, and Why Synthetic Data Fails in Model-Based Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.01457v2
- Date: Fri, 03 Oct 2025 16:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.921783
- Title: Fixing That Free Lunch: When, Where, and Why Synthetic Data Fails in Model-Based Policy Optimization
- Title(参考訳): フリーランチの修正:モデルベースの政策最適化において合成データが機能しないのはいつ、どこで、なぜか
- Authors: Brett Barkley, David Fridovich-Keil,
- Abstract要約: 本稿では, モデルベースポリシー最適化(MBPO)に注目した。
結果のフェールモードに対処することで、以前は達成不可能だったポリシーの改善が可能になることを示す。
- 参考スコア(独自算出の注目度): 3.8532441307199963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data is a core component of data-efficient Dyna-style model-based reinforcement learning, yet it can also degrade performance. We study when it helps, where it fails, and why, and we show that addressing the resulting failure modes enables policy improvement that was previously unattainable. We focus on Model-Based Policy Optimization (MBPO), which performs actor and critic updates using synthetic action counterfactuals. Despite reports of strong and generalizable sample-efficiency gains in OpenAI Gym, recent work shows that MBPO often underperforms its model-free counterpart, Soft Actor-Critic (SAC), in the DeepMind Control Suite (DMC). Although both suites involve continuous control with proprioceptive robots, this shift leads to sharp performance losses across seven challenging DMC tasks, with MBPO failing in cases where claims of generalization from Gym would imply success. This reveals how environment-specific assumptions can become implicitly encoded into algorithm design when evaluation is limited. We identify two coupled issues behind these failures: scale mismatches between dynamics and reward models that induce critic underestimation and hinder policy improvement during model-policy coevolution, and a poor choice of target representation that inflates model variance and produces error-prone rollouts. Addressing these failure modes enables policy improvement where none was previously possible, allowing MBPO to outperform SAC in five of seven tasks while preserving the strong performance previously reported in OpenAI Gym. Rather than aiming only for incremental average gains, we hope our findings motivate the community to develop taxonomies that tie MDP task- and environment-level structure to algorithmic failure modes, pursue unified solutions where possible, and clarify how benchmark choices ultimately shape the conditions under which algorithms generalize.
- Abstract(参考訳): 合成データはデータ効率のよいDynaスタイルのモデルベース強化学習のコアコンポーネントであるが、性能も劣化する。
そして、結果の失敗モードに対処することで、以前は達成不可能だった政策改善が可能になることを示します。
本稿では, モデルに基づく政策最適化(MBPO)に注目した。
OpenAI Gymの強力な、一般化可能なサンプル効率向上の報告にもかかわらず、最近の研究は、MBPOがDeepMind Control Suite (DMC) において、モデルフリーのSoft Actor-Critic (SAC) を過小評価していることを示している。
どちらのスイートもプロプリセプティブロボットとの連続的な制御を伴っているが、このシフトは7つの挑戦的なDMCタスクに急激なパフォーマンス損失をもたらし、MBPOはGymからの一般化の主張が成功を示唆するケースで失敗する。
これは、評価が限定された場合、環境固有の仮定がアルゴリズム設計に暗黙的にエンコードされる方法を明らかにする。
モデルポリティクスの共進化において、批判的過小評価や政策改善を阻害する力学モデルと報酬モデル間のミスマッチのスケールと、モデル分散を膨張させ、エラーを起こしやすいロールアウトを生み出すターゲット表現の貧弱な選択である。
これらの障害モードに対処することで、これまで不可能だったポリシの改善が可能になり、MBPOはOpenAI Gymで報告された強力なパフォーマンスを維持しながら、7つのタスクのうち5つのタスクでSACを上回ります。
我々は,段階的な平均ゲインのみを目標とするのではなく,MPPタスクレベルと環境レベル構造をアルゴリズムの障害モードに結びつける分類法を開発し,可能な限り統一的な解を追求し,ベンチマーク選択が最終的にアルゴリズムが一般化する条件をどう形成するかを明らかにすることを,我々の研究成果に期待する。
関連論文リスト
- Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。