論文の概要: Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting
- arxiv url: http://arxiv.org/abs/2603.08118v1
- Date: Mon, 09 Mar 2026 08:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.717769
- Title: Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting
- Title(参考訳): 可微分適応重み付きロバスト値認識モデル学習によるモデルベースオフラインRL
- Authors: Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu,
- Abstract要約: Adrial Model Learningは、モデルエクスプロイトを緩和するための理論的フレームワークを提供する。
我々はtextbfImplicitly differentiable Adaptive weighting (ROMI) を用いた textbfRObust value-aware textbfModel 学習を提案する。
- 参考スコア(独自算出の注目度): 26.86263818777302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based offline reinforcement learning (RL) aims to enhance offline RL with a dynamics model that facilitates policy exploration. However, \textit{model exploitation} could occur due to inevitable model errors, degrading algorithm performance. Adversarial model learning offers a theoretical framework to mitigate model exploitation by solving a maximin formulation. Within such a paradigm, RAMBO~\citep{rigter2022rambo} has emerged as a representative and most popular method that provides a practical implementation with model gradient. However, we empirically reveal that severe Q-value underestimation and gradient explosion can occur in RAMBO with only slight hyperparameter tuning, suggesting that it tends to be overly conservative and suffers from unstable model updates. To address these issues, we propose \textbf{RO}bust value-aware \textbf{M}odel learning with \textbf{I}mplicitly differentiable adaptive weighting (ROMI). Instead of updating the dynamics model with model gradient, ROMI introduces a novel robust value-aware model learning approach. This approach requires the dynamics model to predict future states with values close to the minimum Q-value within a scale-adjustable state uncertainty set, enabling controllable conservatism and stable model updates. To further improve out-of-distribution (OOD) generalization during multi-step rollouts, we propose implicitly differentiable adaptive weighting, a bi-level optimization scheme that adaptively achieves dynamics- and value-aware model learning. Empirical results on D4RL and NeoRL datasets show that ROMI significantly outperforms RAMBO and achieves competitive or superior performance compared to other state-of-the-art methods on datasets where RAMBO typically underperforms. Code is available at https://github.com/zq2r/ROMI.git.
- Abstract(参考訳): モデルベースオフライン強化学習(RL)は、ポリシー探索を容易にするダイナミックスモデルにより、オフラインRLを強化することを目的としている。
しかし、 \textit{model exploitation} は必然的にモデルエラーが発生し、アルゴリズムのパフォーマンスが低下する可能性がある。
逆モデル学習は、最大値の定式化を解くことによってモデル搾取を緩和する理論的枠組みを提供する。
このようなパラダイムの中で、RAMBO~\citep{rigter2022rambo} はモデル勾配の実践的な実装を提供する代表的で最も一般的な方法として登場した。
しかし,軽微なハイパーパラメータチューニングを施したRAMBOでは,厳密なQ値過小評価や勾配の爆発が発生することが実証的に明らかとなり,過度に保守的であり,不安定なモデル更新に悩まされることが示唆された。
これらの問題に対処するために, 適応重み付け (ROMI) を用いて, 適応重み付け (ROMI) を用いて, 適応重み付け (ROMI) を学習する。
モデル勾配で動的モデルを更新する代わりに、ROMIは、新しい堅牢な値認識モデル学習アプローチを導入する。
このアプローチでは、動的モデルにより、スケール調整可能な状態不確実性セット内の最小Q値に近い値を持つ将来の状態を予測し、制御可能な保守性と安定したモデル更新を可能にする必要がある。
複数段階のロールアウトにおけるアウト・オブ・ディストリビューション(OOD)の一般化をさらに改善するため,動的および値認識モデル学習を適応的に実現する二段階最適化方式である暗黙的に微分可能な適応重み付けを提案する。
D4RLとNeoRLデータセットの実証結果は、ROMIがRAMBOを著しく上回り、RAMBOが通常パフォーマンスの低いデータセット上の他の最先端メソッドと比較して、競争力や優れたパフォーマンスを達成することを示している。
コードはhttps://github.com/zq2r/ROMI.gitで入手できる。
関連論文リスト
- Learn A Flexible Exploration Model for Parameterized Action Markov Decision Processes [8.588866536242145]
モデルベース(MBRL)アルゴリズムであるFLEXploreを提案し,エージェントの学習効率と性能を向上させる。
FLEXploreは他のベースラインと比較して学習効率と性能が優れていることを示す。
論文 参考訳(メタデータ) (2025-01-06T05:33:09Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning [31.8260779160424]
学習力学モデルの改善に伴い,一般的なアルゴリズムがどのように機能するかを検討する。
エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Learning (RAVL)を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:38:00Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。