論文の概要: Match or Replay: Self Imitating Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.27515v1
- Date: Sun, 29 Mar 2026 04:44:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.995311
- Title: Match or Replay: Self Imitating Proximal Policy Optimization
- Title(参考訳): Match or Replay: セルフイミメーティング・ポリシー最適化
- Authors: Gaurav Chaudhary, Laxmidhar Behera, Washim Uddin Mondal,
- Abstract要約: 強化学習(RL)エージェントは、しばしば非効率な探索に苦しむ。
従来の探索戦略は、学習の遅さと最適以下のパフォーマンスにつながる可能性がある。
本稿では,探索とサンプル効率を向上させる自己模倣型オン・ポリシーアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 14.033176618356746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) agents often struggle with inefficient exploration, particularly in environments with sparse rewards. Traditional exploration strategies can lead to slow learning and suboptimal performance because agents fail to systematically build on previously successful experiences, thereby reducing sample efficiency. To tackle this issue, we propose a self-imitating on-policy algorithm that enhances exploration and sample efficiency by leveraging past high-reward state-action pairs to guide policy updates. Our method incorporates self-imitation by using optimal transport distance in dense reward environments to prioritize state visitation distributions that match the most rewarding trajectory. In sparse-reward environments, we uniformly replay successful self-encountered trajectories to facilitate structured exploration. Experimental results across diverse environments demonstrate substantial improvements in learning efficiency, including MuJoCo for dense rewards and the partially observable 3D Animal-AI Olympics and multi-goal PointMaze for sparse rewards. Our approach achieves faster convergence and significantly higher success rates compared to state-of-the-art self-imitating RL baselines. These findings underscore the potential of self-imitation as a robust strategy for enhancing exploration in RL, with applicability to more complex tasks.
- Abstract(参考訳): 強化学習(RL)エージェントは、しばしば非効率な探索に苦しむ。
従来の探索戦略は、エージェントが以前に成功した経験に基づいて体系的に構築できないため、学習と準最適性能をもたらす可能性があるため、サンプル効率が低下する。
この問題に対処するために,過去の高次状態対応ペアを利用して政策更新を導出することにより,探索とサンプル効率を向上させる自己模倣型オンラインアルゴリズムを提案する。
提案手法は,高密度報奨環境における最適輸送距離を用いて,報奨軌道に適合する状態訪問分布の優先順位付けを行う。
スパース・リワード環境では、構造化探索を容易にするために、成功した自己認識軌道を均一に再生する。
様々な環境における実験結果は、高密度報酬のMuJoCoや、部分的に観察可能な3D動物AIオリンピック、スパース報酬のPointMazeなど、学習効率の大幅な改善を示す。
提案手法は, 最先端の自己同化RLベースラインと比較して, より高速に収束し, 極めて高い成功率を達成する。
これらの知見は、RLの探索を強化するための堅牢な戦略として、より複雑なタスクに適用可能な自己想像の可能性を強調している。
関連論文リスト
- Towards better dense rewards in Reinforcement Learning Applications [0.7344790292816897]
強化学習(RL)分野における意味的かつ正確な高密度報酬の発見は基本的な課題である
デンス報酬関数は、エージェントの振る舞いを形作り、学習を加速することで潜在的な解決策を提供する。
本提案では,未解決問題に対処し,高密度報酬構築の有効性と信頼性を高めるためのいくつかのアプローチについて検討する。
論文 参考訳(メタデータ) (2025-12-03T22:36:55Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations [2.709826237514737]
報酬フィードバックの幅は、オンラインの深層強化学習において依然として難しい問題である。
Smooth Guidance (POSG) を用いたポリシー最適化手法を提案する。
4つのスパース・リワード環境におけるPOSGの制御性能と収束速度の顕著な優位性を示す。
論文 参考訳(メタデータ) (2023-12-30T07:41:45Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。