論文の概要: Imagination-Limited Q-Learning for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.12211v1
- Date: Sun, 18 May 2025 03:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.095679
- Title: Imagination-Limited Q-Learning for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのImagination-Limited Q-Learning
- Authors: Wenhui Liu, Zhijian Wu, Jingchao Wang, Dingjiang Huang, Shuigeng Zhou,
- Abstract要約: Imagination-Limited Q-learning (ILQ) 法を提案する。
具体的には、動的モデルを用いて、OODのアクション値を想像し、次に最大振る舞い値で想像値をクリップする。
本手法はD4RLベンチマークにおいて,多種多様なタスクにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 18.8976065411658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning seeks to derive improved policies entirely from historical data but often struggles with over-optimistic value estimates for out-of-distribution (OOD) actions. This issue is typically mitigated via policy constraint or conservative value regularization methods. However, these approaches may impose overly constraints or biased value estimates, potentially limiting performance improvements. To balance exploitation and restriction, we propose an Imagination-Limited Q-learning (ILQ) method, which aims to maintain the optimism that OOD actions deserve within appropriate limits. Specifically, we utilize the dynamics model to imagine OOD action-values, and then clip the imagined values with the maximum behavior values. Such design maintains reasonable evaluation of OOD actions to the furthest extent, while avoiding its over-optimism. Theoretically, we prove the convergence of the proposed ILQ under tabular Markov decision processes. Particularly, we demonstrate that the error bound between estimated values and optimality values of OOD state-actions possesses the same magnitude as that of in-distribution ones, thereby indicating that the bias in value estimates is effectively mitigated. Empirically, our method achieves state-of-the-art performance on a wide range of tasks in the D4RL benchmark.
- Abstract(参考訳): オフライン強化学習は、歴史的データから完全に改善されたポリシーを導き出そうとするが、しばしばアウト・オブ・ディストリビューション(OOD)の行動に対して過度に最適化された価値見積に苦しむ。
この問題は一般的に、ポリシー制約や保守的な値正規化手法によって緩和される。
しかしながら、これらのアプローチは過剰な制約やバイアス値の推定を課し、パフォーマンス改善を制限します。
Imagination-Limited Q-learning (ILQ) 法は,OOD 行動が適切な制限下にあるという楽観性を維持することを目的とした手法である。
具体的には、動的モデルを用いて、OODのアクション値を想像し、次に最大振る舞い値で想像値をクリップする。
このような設計は、過度な最適化を避けつつ、OOD作用の十分な評価を維持している。
理論的には、マルコフ決定過程において提案されたILQの収束性を証明する。
特に,OOD状態作用の最適値と推定値との誤差が分配値と同じ大きさであることを示し,推定値のバイアスが効果的に緩和されることを示す。
本手法は,D4RLベンチマークにおいて,多種多様なタスクにおける最先端性能を実証的に達成する。
関連論文リスト
- Taming OOD Actions for Offline Reinforcement Learning: An Advantage-Based Approach [11.836153064242811]
オフライン強化学習(RL)は、オンラインインタラクションなしで、固定データセットから意思決定ポリシーを学ぶことを目的としている。
本稿では, OOD アクションを体系的に評価する新しい手法として, アドバンテージベースの拡散アクター・クリティカル (ADAC) を提案する。
ADACはD4RLベンチマークのほとんど全てのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-08T10:57:28Z) - Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization [23.817251267022847]
本稿では,過度な最適化問題を緩和するために,行動対応型政策最適化(BSPO)手法を提案する。
BSPOは強化学習過程におけるOOD反応の発生を減少させる。
実験の結果,BSPOは報酬過度最適化の防止においてベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-23T16:20:59Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Conservative State Value Estimation for Offline Reinforcement Learning [36.416504941791224]
保守的状態価値推定(CSVE)は、OOD状態に直接ペナルティを与えることによって、保守的なV関数を学ぶ。
我々は,データセットの周辺状態をサンプリングし,ペナルティ化することにより,批判者が保守的価値推定を行う実用的なアクタ批判アルゴリズムを開発した。
我々はD4RLの古典的連続制御タスクにおいて,本手法が保守的なQ関数学習法よりも優れており,最近のSOTA法と強く競合していることを示す。
論文 参考訳(メタデータ) (2023-02-14T08:13:55Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。