論文の概要: DROMO: Distributionally Robust Offline Model-based Policy Optimization
- arxiv url: http://arxiv.org/abs/2109.07275v1
- Date: Wed, 15 Sep 2021 13:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 19:47:02.351797
- Title: DROMO: Distributionally Robust Offline Model-based Policy Optimization
- Title(参考訳): DROMO: オフラインモデルに基づく政策最適化の分散ロバスト化
- Authors: Ruizhen Liu, Dazhi Zhong, Zhicong Chen
- Abstract要約: モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of offline reinforcement learning with model-based
control, whose goal is to learn a dynamics model from the experience replay and
obtain a pessimism-oriented agent under the learned model. Current model-based
constraint includes explicit uncertainty penalty and implicit conservative
regularization that pushes Q-values of out-of-distribution state-action pairs
down and the in-distribution up. While the uncertainty estimation, on which the
former relies on, can be loosely calibrated for complex dynamics, the latter
performs slightly better. To extend the basic idea of regularization without
uncertainty quantification, we propose distributionally robust offline
model-based policy optimization (DROMO), which leverages the ideas in
distributionally robust optimization to penalize a broader range of
out-of-distribution state-action pairs beyond the standard empirical
out-of-distribution Q-value minimization. We theoretically show that our method
optimizes a lower bound on the ground-truth policy evaluation, and it can be
incorporated into any existing policy gradient algorithms. We also analyze the
theoretical properties of DROMO's linear and non-linear instantiations.
- Abstract(参考訳): モデルベース制御によるオフライン強化学習の問題点について考察し,その課題は,経験リプレイからダイナミクスモデルを学び,学習モデルの下で悲観主義指向エージェントを得ることである。
現在のモデルベースの制約には明確な不確実性ペナルティと暗黙の保守的正規化が含まれており、これは分配外状態-作用対のQ値を押し下げ、分配外状態-作用対を下げる。
前者が依存する不確実性推定は、複雑な力学に対して緩やかに校正できるが、後者は若干改善されている。
不確実性定量化を伴わない正規化の基本的な考え方を拡張するために,分散的ロバストな最適化のアイデアを活用した分散的ロバストなオフラインモデルに基づくポリシー最適化(dromo)を提案する。
理論的には,提案手法は基本的方針評価の下位境界を最適化し,既存の政策勾配アルゴリズムに組み込むことができる。
また,dromoの線形および非線形インスタンス化の理論特性も解析した。
関連論文リスト
- Dual Alignment Maximin Optimization for Offline Model-based RL [10.048622079413313]
オフラインの強化剤は、合成から現実の分布ミスマッチのため、重要な展開課題に直面します。
本稿では、まずモデル信頼性から、期待したリターンを最適化しながらポリシーの相違に焦点を移し、その後、自己整合的に合成データを組み込む。
これは、モデル環境ポリシーの一貫性と、合成およびデータのオフラインを保証する統一されたフレームワークである。
論文 参考訳(メタデータ) (2025-02-02T16:47:35Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Model-based Offline Policy Optimization with Adversarial Network [0.36868085124383626]
本稿では,新たなモデルベースオフラインポリシー最適化フレームワーク(MOAN)を提案する。
主なアイデアは、敵の学習を使って、より良い一般化を伴う遷移モデルを構築することである。
我々の手法は、広く研究されているオフラインRLベンチマークにおいて、最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-05T11:49:33Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Model-based Offline Reinforcement Learning with Local Misspecification [35.75701143290119]
本稿では、モデルに基づくオフライン強化学習ポリシーの性能を低くし、動的モデルの誤特定と分布ミスマッチを明示的にキャプチャする。
最適なオフラインポリシー選択のための経験的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-26T21:26:56Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。