論文の概要: Proximal Action Replacement for Behavior Cloning Actor-Critic in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.07441v1
- Date: Sat, 07 Feb 2026 08:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.623803
- Title: Proximal Action Replacement for Behavior Cloning Actor-Critic in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における行動クローン・アクター・クライトの近行動置換
- Authors: Jinzong Dong, Wei Huang, Jianshu Zhang, Zhuo Chen, Xinzhe Yuan, Qinying Gu, Zhaohui Jiang, Nanyang Ye,
- Abstract要約: 安定なアクターによって生成される高価値なアクションに置き換える,プラグアンドプレイのトレーニングサンプル置換器を提案する。
実験の結果、PARはパフォーマンスを継続的に改善し、基礎的なTD3+BCと組み合わせることで最先端にアプローチすることがわかった。
- 参考スコア(独自算出の注目度): 22.17044827069627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) optimizes policies from a previously collected static dataset and is an important branch of RL. A popular and promising approach is to regularize actor-critic methods with behavior cloning (BC), which yields realistic policies and mitigates bias from out-of-distribution actions, but can impose an often-overlooked performance ceiling: when dataset actions are suboptimal, indiscriminate imitation structurally prevents the actor from fully exploiting high-value regions suggested by the critic, especially in later training when imitation is already dominant. We formally analyzed this limitation by investigating convergence properties of BC-regularized actor-critic optimization and verified it on a controlled continuous bandit task. To break this ceiling, we propose proximal action replacement (PAR), a plug-and-play training sample replacer that progressively replaces low-value actions with high-value actions generated by a stable actor, broadening the action exploration space while reducing the impact of low-value data. PAR is compatible with multiple BC regularization paradigms. Extensive experiments across offline RL benchmarks show that PAR consistently improves performance and approaches state-of-the-art when combined with the basic TD3+BC.
- Abstract(参考訳): オフライン強化学習(RL)は、以前に収集した静的データセットからのポリシーを最適化し、RLの重要なブランチである。
人気があり有望なアプローチは、行動クローニング(BC)によるアクター批判的手法を規則化し、現実的なポリシーを導き、配布外の行動からバイアスを緩和するが、しばしば見過ごされるパフォーマンス天井を課すことである。
我々は,BC-正規化アクター批判最適化の収束特性を調査して,この制限を公式に解析し,制御された連続バンディットタスクで検証した。
この天井を壊すために, プラスティック・アンド・プレイの訓練用サンプル交換器であるPARを提案し, 低値データの影響を低減しつつ, 動作探索空間を拡大し, 安定したアクターによって生成された高値のアクションに徐々に置き換える。
PARは複数のBC正規化パラダイムと互換性がある。
オフラインRLベンチマークによる大規模な実験により、PARはパフォーマンスを一貫して改善し、基礎的なTD3+BCと組み合わせることで最先端にアプローチする。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Less is More: Clustered Cross-Covariance Control for Offline RL [13.198112768636207]
オフライン強化学習における基本的な課題は、分散シフトである。
ローカルなリプレイパーティションへの更新を制限する分割バッファサンプリングを提案する。
また,各更新における共分散誘発バイアスを解消する,明確な勾配に基づく補正ペナルティも導入する。
論文 参考訳(メタデータ) (2026-01-28T16:55:04Z) - Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - B3C: A Minimalist Approach to Offline Multi-Agent Reinforcement Learning [2.9312156642007303]
オフライン強化学習(RL)において,政策評価中の未確認行動の選択による過大評価が大きな課題である
本稿では,批判クリッピング(B3C)を用いた行動クローン規則化を提案する。
B3Cは、様々なオフラインマルチエージェントベンチマークで最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2025-01-30T05:02:33Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。