論文の概要: Distorted Distributional Policy Evaluation for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.01917v1
- Date: Mon, 05 Jan 2026 09:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.927405
- Title: Distorted Distributional Policy Evaluation for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための歪み分布政策評価
- Authors: Ryo Iwaki, Takayuki Osogami,
- Abstract要約: オフライン分散強化学習(DRL)手法の鍵となる限界は、一様に過小評価される戻り量子化へのアプローチにある。
本研究では,保存度を調整し,一様でない悲観的ペシミズムを可能にする量子歪みという新しい概念を導入する。
提案手法は理論的解析と実証的検証に基礎を置き,一様悲観論よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 7.706079016670121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Distributional Reinforcement Learning (DRL) methods have demonstrated strong performance in online settings, its success in offline scenarios remains limited. We hypothesize that a key limitation of existing offline DRL methods lies in their approach to uniformly underestimate return quantiles. This uniform pessimism can lead to overly conservative value estimates, ultimately hindering generalization and performance. To address this, we introduce a novel concept called quantile distortion, which enables non-uniform pessimism by adjusting the degree of conservatism based on the availability of supporting data. Our approach is grounded in theoretical analysis and empirically validated, demonstrating improved performance over uniform pessimism.
- Abstract(参考訳): 分散強化学習(DRL)手法は,オンライン環境において高い性能を示したが,オフライン環境での成功は依然として限られている。
既存のオフラインDRL手法の鍵となる制限は、返却量子を一様に過小評価するアプローチにあると仮定する。
この一様悲観主義は、過度に保守的な値の推定を導き、最終的には一般化と性能を妨げる。
そこで本研究では,非一様悲観的ペシミズムを実現するための量子歪み(quantile distortion)という新しい概念を提案する。
提案手法は理論的解析と実証的検証に基礎を置き,一様悲観論よりも優れた性能を示す。
関連論文リスト
- State-Constrained Offline Reinforcement Learning [9.38848713730931]
我々は、データセットの状態分布にのみ焦点をあてた新しいフレームワークである、状態制約付きオフラインRLを紹介した。
また、D4RLベンチマークデータセット上で最先端のパフォーマンスを実現するディープラーニングアルゴリズムであるStaCQについても紹介する。
論文 参考訳(メタデータ) (2024-05-23T09:50:04Z) - Selective Uncertainty Propagation in Offline RL [26.73089524575174]
我々は、有限水平オフライン強化学習(RL)の設定を考察し、動的プログラミング(DP)アルゴリズムにおいて、任意のステップhでポリシーを学習することの難しさを動機としている。
本研究では, 分散シフトの難易度に適応する信頼区間構築のための, 選択的不確実性伝播というフレキシブルで汎用的な手法を開発した。
論文 参考訳(メタデータ) (2023-02-01T07:31:25Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。