Fugu-MT 論文翻訳(概要): Revisiting Experience Replayable Conditions

論文の概要: Revisiting Experience Replayable Conditions

arxiv url: http://arxiv.org/abs/2402.10374v1
Date: Thu, 15 Feb 2024 23:43:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 18:08:41.275207
Title: Revisiting Experience Replayable Conditions
Title（参考訳）: 体験再生可能な条件の再検討
Authors: Taisuke Kobayashi
Abstract要約: 本論文は、より厳格な「経験再現性条件」(ERC)を再考する。 ERCを満たすために既存のアルゴリズムを変更する方法を提案する。数値シミュレーションにより,提案した安定化手法により,ERが有利なアクタ批判アルゴリズムであるオン・ポリティクスに適用可能であることを確認した。
参考スコア（独自算出の注目度）: 6.20048328543366
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Experience replay (ER) used in (deep) reinforcement learning is considered to be applicable only to off-policy algorithms. However, there have been some cases in which ER has been applied for on-policy algorithms, suggesting that off-policyness might be a sufficient condition for applying ER. This paper reconsiders more strict "experience replayable conditions" (ERC) and proposes the way of modifying the existing algorithms to satisfy ERC. To this end, instability of policy improvements is assumed to be a key in ERC. The instability factors are revealed from the viewpoint of metric learning as i) repulsive forces from negative samples and ii) replays of inappropriate experiences. Accordingly, the corresponding stabilization tricks are derived. As a result, it is confirmed through numerical simulations that the proposed stabilization tricks make ER applicable to an advantage actor-critic, an on-policy algorithm. In addition, its learning performance is comparable to that of a soft actor-critic, a state-of-the-art off-policy algorithm.
Abstract（参考訳）: 深い)強化学習で使われる経験リプレイ(er)は、オフポリシーアルゴリズムにのみ適用できると考えられている。しかし、ERがオン・ポリティクス・アルゴリズムに応用されたケースはいくつかあり、非政治性はERを適用するのに十分な条件である可能性が示唆されている。本稿では,より厳密なERC(experience replayable conditions)を再考し,ERCを満たすために既存のアルゴリズムを変更する方法を提案する。この目的のために、政策改善の不安定性がERCの鍵であると仮定される。計量学習の観点から不安定因子が明らかにされる一負の試料からの反発力及び二不適切な経験の再生これにより、対応する安定化トリックが導出される。その結果, 提案する安定化手法が, アドバンテージ・アクタ-クリティック, オンポリシーアルゴリズムに適用可能であることを数値シミュレーションにより確認した。さらに、その学習性能は、最先端のオフ・ポリシーアルゴリズムであるsoft actor-criticに匹敵する。

関連論文リスト

Variance Reduction Based Experience Replay for Policy Optimization [3.7128732378843394]
Variance Reduction Experience Replay (VRER) は、ポリシー勾配推定におけるばらつきを低減するために、情報的サンプルを選択的に再利用する原則的なフレームワークである。 VRERはアルゴリズムに依存しず、既存のポリシー最適化手法とシームレスに統合される。我々は,VRERが政策学習を継続的に加速し,最先端の政策最適化アルゴリズムよりも性能を向上させることを示す。
論文参考訳（メタデータ） (2026-02-05T06:58:28Z)
A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文参考訳（メタデータ） (2026-01-30T08:47:19Z)
Enabling Off-Policy Imitation Learning with Deep Actor Critic Stabilization [6.65616155956618]
本稿では,非政治学習を取り入れてサンプル効率を向上させる逆模倣学習アルゴリズムを提案する。専門家の行動に頑健に適合するために必要なサンプルの削減を実証する。
論文参考訳（メタデータ） (2025-11-10T16:35:50Z)
IL-SOAR : Imitation Learning with Soft Optimistic Actor cRitic [52.44637913176449]
本稿では、模倣学習のためのSOARフレームワークを紹介する。これは、コストとポリシーの更新を交互に行うプリミティブデュアルスタイルのアルゴリズムで、専門家によるデモンストレーションからポリシーを学ぶアルゴリズムテンプレートである。いくつかの MuJoCo 環境では,f-IRL,ML-IRL,CSIL などのソフトアクタ批判に基づく模倣学習アルゴリズムの性能を一貫して向上することが示されている。
論文参考訳（メタデータ） (2025-02-27T08:03:37Z)
CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms [5.331052581441265]
我々は,他のすべての経験の公平性を考慮しつつ,記憶された経験をサンプリングする新しいアルゴリズム,Corrected Uniform Experience (CUER) を開発した。 CUERは、トレーニング中のポリシーのサンプル効率、最終的なパフォーマンス、安定性の観点から、非政治的な継続的制御アルゴリズムに有望な改善を提供する。
論文参考訳（メタデータ） (2024-06-13T12:03:40Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
Distillation Policy Optimization [5.439020425819001]
本研究では,評価と制御の両面において2つのデータソースを調和させるアクタ批判学習フレームワークを提案する。このフレームワークには、統一利便推定器(UAE)と残留基線を含む分散還元機構が組み込まれている。以上の結果から,オンラインアルゴリズムのサンプル効率は大幅に向上し,非政治的アプローチとのギャップを効果的に埋めることができた。
論文参考訳（メタデータ） (2023-02-01T15:59:57Z)
On the Reuse Bias in Off-Policy Reinforcement Learning [28.29153543457396]
Reuse Biasは、評価と最適化のためのリプレイバッファの再利用によって生じる、政治外の評価のバイアスである。本稿では,リプレイバッファのデータによる現在の政策の非政治的評価と最適化が,目的を過大評価する結果となることを示す。本稿では,新しいBIRIS(Bias-Regularized Importance Smpling)フレームワークと,Reuse Biasの悪影響を軽減する実用的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-15T06:20:36Z)
Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文参考訳（メタデータ） (2022-09-01T15:27:46Z)
When does return-conditioned supervised learning work for offline reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。 RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文参考訳（メタデータ） (2022-06-02T15:05:42Z)
Variance Reduction based Experience Replay for Policy Optimization [3.0790370651488983]
Variance Reduction Experience Replay (VRER) は、政策勾配推定を改善するために、関連するサンプルを選択的に再利用するためのフレームワークである。 VRERは、VRERによるポリシーグラディエントとして知られる、効率的な非政治学習アルゴリズムの基盤となる。
論文参考訳（メタデータ） (2021-10-17T19:28:45Z)
Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文参考訳（メタデータ） (2021-06-16T16:04:26Z)
Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文参考訳（メタデータ） (2021-02-03T10:06:16Z)
Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。 1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T03:27:59Z)
Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文参考訳（メタデータ） (2020-06-23T17:17:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。