Fugu-MT 論文翻訳(概要): Search-Based Adversarial Estimates for Improving Sample Efficiency in Off-Policy Reinforcement Learning

論文の概要: Search-Based Adversarial Estimates for Improving Sample Efficiency in Off-Policy Reinforcement Learning

arxiv url: http://arxiv.org/abs/2502.01558v1
Date: Mon, 03 Feb 2025 17:41:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.245874
Title: Search-Based Adversarial Estimates for Improving Sample Efficiency in Off-Policy Reinforcement Learning
Title（参考訳）: オフポリティ強化学習におけるサンプル効率向上のための探索型逆推定法
Authors: Federico Malato, Ville Hautamaki,
Abstract要約: 本稿では,この問題を緩和するための新しい,シンプルかつ効率的なアプローチとして,Adversarial Estimatesを提案する。我々のアプローチは、学習を促進するために、小さな人間の軌道の集合からの潜在類似性探索を活用する。本研究の結果から,適応推定を用いた学習アルゴリズムは,元のバージョンよりも高速に収束することがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Sample inefficiency is a long-lasting challenge in deep reinforcement learning (DRL). Despite dramatic improvements have been made, the problem is far from being solved and is especially challenging in environments with sparse or delayed rewards. In our work, we propose to use Adversarial Estimates as a new, simple and efficient approach to mitigate this problem for a class of feedback-based DRL algorithms. Our approach leverages latent similarity search from a small set of human-collected trajectories to boost learning, using only five minutes of human-recorded experience. The results of our study show algorithms trained with Adversarial Estimates converge faster than their original version. Moreover, we discuss how our approach could enable learning in feedback-based algorithms in extreme scenarios with very sparse rewards.
Abstract（参考訳）: サンプル不効率は、深層強化学習(DRL)における長期にわたる課題である。劇的な改善が行われたにもかかわらず、問題は解決されるには程遠いものであり、特にスパースや遅延した報酬のある環境では困難である。本研究では,フィードバックに基づくDRLアルゴリズムのクラスにおいて,この問題を緩和するための新しい,シンプルかつ効率的なアプローチとして,Adversarial Estimatesを提案する。提案手法は,人間に記録された経験をわずか5分間だけ利用して,学習を促進するために,少数の人間系軌道からの潜在類似性探索を利用する。本研究の結果から,適応推定を用いた学習アルゴリズムは,元のバージョンよりも高速に収束することがわかった。さらに、我々のアプローチが、非常に少ない報酬で、極端なシナリオにおけるフィードバックベースのアルゴリズムの学習を可能にする方法について論じる。

関連論文リスト

RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文参考訳（メタデータ） (2023-10-29T06:12:43Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Re-thinking Data Availablity Attacks Against Deep Neural Networks [53.64624167867274]
本稿では、未学習例の概念を再検討し、既存のロバストな誤り最小化ノイズが不正確な最適化目標であることを示す。本稿では,計算時間要件の低減による保護性能の向上を図った新しい最適化パラダイムを提案する。
論文参考訳（メタデータ） (2023-05-18T04:03:51Z)
Rethinking Population-assisted Off-policy Reinforcement Learning [7.837628433605179]
オフ政治強化学習アルゴリズムは、限られた探索のために局所最適への収束に苦慮する。人口ベースのアルゴリズムは自然探索戦略を提供するが、ブラックボックス演算子は非効率である。最近のアルゴリズムはこれら2つの手法を統合し、共有再生バッファを介してそれらを接続している。
論文参考訳（メタデータ） (2023-05-04T15:53:00Z)
Efficient Meta Reinforcement Learning for Preference-based Fast Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-11-20T03:55:09Z)
Sample-Efficient, Exploration-Based Policy Optimisation for Routing Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。我々のモデルは様々な経路問題に一般化可能であることを示す。
論文参考訳（メタデータ） (2022-05-31T09:51:48Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
Sample Efficient Social Navigation Using Inverse Reinforcement Learning [11.764601181046498]
本稿では,人間の軌道観測から学習する逆強化学習に基づくアルゴリズムについて述べる。私たちは、トレーニング時間とサンプルの複雑さを減らしながら、我々のアプローチがより良いパフォーマンスをもたらすことを示しています。
論文参考訳（メタデータ） (2021-06-18T19:07:41Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Reannealing of Decaying Exploration Based On Heuristic Measure in Deep Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文参考訳（メタデータ） (2020-09-29T20:40:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。