論文の概要: Pessimistic Auxiliary Policy for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.23974v1
- Date: Fri, 27 Feb 2026 12:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.42285
- Title: Pessimistic Auxiliary Policy for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための悲観的補助政策
- Authors: Fan Zhang, Baoru Huang, Xin Zhang,
- Abstract要約: 信頼性のある動作をサンプリングするための新しい悲観的補助ポリシーを構築した。
悲観的な補助戦略は、学習方針の近傍で比較的高い価値と低い不確実性を示す。
オフライン強化学習ベンチマークの実験では、悲観的な補助戦略を利用することで、他のオフラインRLアプローチの有効性を効果的に改善できることが示された。
- 参考スコア(独自算出の注目度): 9.466490274149955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning aims to learn an agent from pre-collected datasets, avoiding unsafe and inefficient real-time interaction. However, inevitable access to out-ofdistribution actions during the learning process introduces approximation errors, causing the error accumulation and considerable overestimation. In this paper, we construct a new pessimistic auxiliary policy for sampling reliable actions. Specifically, we develop a pessimistic auxiliary strategy by maximizing the lower confidence bound of the Q-function. The pessimistic auxiliary strategy exhibits a relatively high value and low uncertainty in the vicinity of the learned policy, avoiding the learned policy sampling high-value actions with potentially high errors during the learning process. Less approximation error introduced by sampled action from pessimistic auxiliary strategy leads to the alleviation of error accumulation. Extensive experiments on offline reinforcement learning benchmarks reveal that utilizing the pessimistic auxiliary strategy can effectively improve the efficacy of other offline RL approaches.
- Abstract(参考訳): オフライン強化学習は、事前に収集されたデータセットからエージェントを学習することを目的としており、安全で非効率的なリアルタイムインタラクションを避ける。
しかし、学習過程におけるアウト・オブ・ディストリビューション・アクションへの避けられないアクセスは近似誤差を引き起こし、エラーの蓄積とかなりの過大評価を引き起こす。
本稿では,信頼行動のサンプリングのための新しい悲観的補助ポリシーを構築する。
具体的には,Q関数の低信頼境界を最大化することにより,悲観的補助戦略を開発する。
悲観的補助戦略は学習方針の近傍で比較的高い価値と低い不確実性を示し、学習過程において潜在的に高いエラーを伴う高価値アクションをサンプリングする学習方針を回避する。
悲観的補助戦略からサンプリングされた作用によって生じる近似誤差が少ないと、誤差蓄積の緩和につながる。
オフライン強化学習ベンチマークの大規模な実験により、悲観的な補助戦略を利用することで、他のオフラインRLアプローチの有効性を効果的に改善できることが明らかになった。
関連論文リスト
- Why Do Unlearnable Examples Work: A Novel Perspective of Mutual Information [55.75102049412629]
クリーンな特徴と有毒な特徴との相互関係は,有効に学習できない例で常に減少することを示す。
我々は、MI-UE(Multual Information Unlearnable Examples)と呼ばれる新しい学習不可能な手法を提案する。
本手法は, 防御機構下においても, 従来手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2026-03-04T04:53:29Z) - Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。
我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文 参考訳(メタデータ) (2023-07-21T20:54:52Z) - Assessor-Guided Learning for Continual Environments [17.181933166255448]
本稿では,継続的学習のための評価者指導型学習戦略を提案する。
評価者は、学習過程の方向とペースを制御することにより、基礎学習者の学習過程を案内する。
評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。
論文 参考訳(メタデータ) (2023-03-21T06:45:14Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Learning Pessimism for Robust and Efficient Off-Policy Reinforcement
Learning [0.0]
時間差学習における過大評価バイアスを補償するオフポリティ深い強化学習アルゴリズム。
そこで本研究では,このような悲観主義を実践するために,新たな学習可能なペナルティを提案する。
また,2つのTD学習で批判者とともにペナルティを学習することを提案する。
論文 参考訳(メタデータ) (2021-10-07T12:13:19Z) - Reducing Conservativeness Oriented Offline Reinforcement Learning [29.895142928565228]
オフライン強化学習では、ポリシーはデータの固定コレクションで累積報酬を最大化する。
保守性指向強化学習を減らす方法を提案する。
提案手法は,提供されたデータセットの歪分布に対処し,期待値関数に近い値関数を導出することができる。
論文 参考訳(メタデータ) (2021-02-27T01:21:01Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。