論文の概要: Improving Policy Exploitation in Online Reinforcement Learning with Instant Retrospect Action
- arxiv url: http://arxiv.org/abs/2601.19720v1
- Date: Tue, 27 Jan 2026 15:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.375556
- Title: Improving Policy Exploitation in Online Reinforcement Learning with Instant Retrospect Action
- Title(参考訳): 即時レトロスペクティブ行動によるオンライン強化学習における政策爆発の改善
- Authors: Gong Gao, Weidong Zhao, Xianhui Liu, Ning Jia,
- Abstract要約: 既存の価値に基づくオンライン強化学習(RL)アルゴリズムは、非効率な探索と遅れたポリシー更新によって、ポリシーの活用が遅くなる。
本稿では,これらの課題に対処するため,IRA(Instant Retrospect Action)と呼ばれるアルゴリズムを提案する。
IRAは8つのMuJoCo連続制御タスクにおけるオンラインRLアルゴリズムの学習効率と最終的なパフォーマンスを大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 10.983482150597913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing value-based online reinforcement learning (RL) algorithms suffer from slow policy exploitation due to ineffective exploration and delayed policy updates. To address these challenges, we propose an algorithm called Instant Retrospect Action (IRA). Specifically, we propose Q-Representation Discrepancy Evolution (RDE) to facilitate Q-network representation learning, enabling discriminative representations for neighboring state-action pairs. In addition, we adopt an explicit method to policy constraints by enabling Greedy Action Guidance (GAG). This is achieved through backtracking historical actions, which effectively enhances the policy update process. Our proposed method relies on providing the learning algorithm with accurate $k$-nearest-neighbor action value estimates and learning to design a fast-adaptable policy through policy constraints. We further propose the Instant Policy Update (IPU) mechanism, which enhances policy exploitation by systematically increasing the frequency of policy updates. We further discover that the early-stage training conservatism of the IRA method can alleviate the overestimation bias problem in value-based RL. Experimental results show that IRA can significantly improve the learning efficiency and final performance of online RL algorithms on eight MuJoCo continuous control tasks.
- Abstract(参考訳): 既存の価値に基づくオンライン強化学習(RL)アルゴリズムは、非効率な探索と遅れたポリシー更新によって、ポリシーの活用が遅くなる。
これらの課題に対処するため, IRA(Instant Retrospect Action)と呼ばれるアルゴリズムを提案する。
具体的には,Q-ネットワーク表現学習を容易にするためのQ-Representation Discrepancy Evolution (RDE)を提案する。
また、Greedy Action Guidance(GAG)を有効にすることで、ポリシー制約に対する明示的な手法を採用する。
これは、ポリシー更新プロセスを効果的に強化する歴史的なアクションをバックトラックすることで達成される。
提案手法は, 正確な$k$-nearest-neighborアクション値推定による学習アルゴリズムの提供と, ポリシー制約を通した高速適応型ポリシー設計の学習に依存する。
さらに,政策更新の頻度を体系的に増加させることで,政策の活用を促進するインスタント・ポリシー・アップデート(IPU)機構を提案する。
さらに、IRA手法の早期学習保守が、値ベースRLの過大評価バイアス問題を緩和することを発見した。
実験の結果, IRA は 8 つの MuJoCo 連続制御タスクにおけるオンライン RL アルゴリズムの学習効率と最終性能を大幅に向上させることができることがわかった。
関連論文リスト
- Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。