Fugu-MT 論文翻訳(概要): Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic

論文の概要: Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic

arxiv url: http://arxiv.org/abs/2306.02865v4
Date: Sat, 17 Feb 2024 21:01:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 06:48:27.420168
Title: Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic
Title（参考訳）: セレンディピティーの獲得:オフポリティアクター批判における過去の成功価値の爆発
Authors: Tianying Ji, Yu Luo, Fuchun Sun, Xianyuan Zhan, Jianwei Zhang, Huazhe Xu
Abstract要約: 高品質なQ値関数の学習は、多くの現代のオフポリティ深い強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。共通視点から考えると、Q値が実際にRLトレーニングプロセスの後半段階で過小評価されていることが分かる。本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
参考スコア（独自算出の注目度）: 45.114862253349735
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Learning high-quality Q-value functions plays a key role in the success of many modern off-policy deep reinforcement learning (RL) algorithms. Previous works focus on addressing the value overestimation issue, an outcome of adopting function approximators and off-policy learning. Deviating from the common viewpoint, we observe that Q-values are indeed underestimated in the latter stage of the RL training process, primarily related to the use of inferior actions from the current policy in Bellman updates as compared to the more optimal action samples in the replay buffer. We hypothesize that this long-neglected phenomenon potentially hinders policy learning and reduces sample efficiency. Our insight to address this issue is to incorporate sufficient exploitation of past successes while maintaining exploration optimism. We propose the Blended Exploitation and Exploration (BEE) operator, a simple yet effective approach that updates Q-value using both historical best-performing actions and the current policy. The instantiations of our method in both model-free and model-based settings outperform state-of-the-art methods in various continuous control tasks and achieve strong performance in failure-prone scenarios and real-world robot tasks.
Abstract（参考訳）: 高品質なQ値関数の学習は、多くの現代のオフポリティ深い強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。これまでの研究では、価値の過大評価問題、関数近似子の採用とオフポリティミー学習の成果に焦点が当てられている。共通視点から考えると、RLトレーニングプロセスの後半段階では、Q値が実際に過小評価され、主にリプレイバッファのより最適なアクションサンプルと比較して、ベルマン更新における現在のポリシーからの劣るアクションの使用に関連している。この長期にわたる現象が政策学習を妨げる可能性があり、サンプル効率を低下させるという仮説を立てる。この問題に対処するための私たちの洞察は、探索の楽観性を維持しながら、過去の成功の十分な活用を組み込むことです。我々は,過去のベストパフォーマンスアクションと現在のポリシの両方を使用してq値を更新する,単純かつ効果的なアプローチであるmixed exploitation and exploration (bee)オペレータを提案する。モデルフリーとモデルベースの両方の設定における本手法のインスタンス化は, 各種連続制御タスクにおける最先端の手法よりも優れ, 障害発生シナリオや実世界のロボットタスクにおいて高い性能を実現する。

関連論文リスト

Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards [17.695285420477035]
オフポリシーRLと教師付き微調整の中間領域のアルゴリズムについて検討する。まず、このオフポリティREINFORCEアルゴリズムの理論的解析を行う。我々の分析によると、オンライン更新はポジティブな信号とネガティブな信号の両方を安全に活用できるが、オフライン更新は、ネガティブな信号よりもポジティブな報酬にフォーカスすることの恩恵を受ける。
論文参考訳（メタデータ） (2025-06-25T15:07:16Z)
VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文参考訳（メタデータ） (2024-05-29T01:49:20Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Iterated $Q$-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning [19.4531905603925]
i-QNは、アクション値関数の調整されたシーケンスを学習することで、複数の連続したベルマン更新を可能にする、原則化されたアプローチである。 i-QNは理論的に根拠があり、値ベースおよびアクター批判的手法でシームレスに使用できることを示す。
論文参考訳（メタデータ） (2024-03-04T15:07:33Z)
Learning and reusing primitive behaviours to improve Hindsight Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文参考訳（メタデータ） (2023-10-03T06:49:57Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文参考訳（メタデータ） (2020-07-16T09:25:54Z)
Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。ゼロ次監視政策改善(ZOSPI)を提案する。 ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文参考訳（メタデータ） (2020-06-11T16:49:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。