論文の概要: MEET: A Monte Carlo Exploration-Exploitation Trade-off for Buffer
Sampling
- arxiv url: http://arxiv.org/abs/2210.13545v2
- Date: Mon, 17 Apr 2023 07:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 23:45:25.347912
- Title: MEET: A Monte Carlo Exploration-Exploitation Trade-off for Buffer
Sampling
- Title(参考訳): MEET: バッファサンプリングのためのモンテカルロ探査-エクスプロイテーショントレードオフ
- Authors: Julius Ott, Lorenzo Servadei, Jose Arjona-Medina, Enrico Rinaldi,
Gianfranco Mauro, Daniela S\'anchez Lopera, Michael Stephan, Thomas
Stadelmayer, Avik Santra, Robert Wille
- Abstract要約: 経験リプレイバッファのための最先端サンプリング戦略は強化学習エージェントの性能を向上させる。
Q値推定に不確実性は含まない。
本稿では,探索・探索トレードオフを利用した新しいサンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 2.501153467354696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data selection is essential for any data-based optimization technique, such
as Reinforcement Learning. State-of-the-art sampling strategies for the
experience replay buffer improve the performance of the Reinforcement Learning
agent. However, they do not incorporate uncertainty in the Q-Value estimation.
Consequently, they cannot adapt the sampling strategies, including exploration
and exploitation of transitions, to the complexity of the task. To address
this, this paper proposes a new sampling strategy that leverages the
exploration-exploitation trade-off. This is enabled by the uncertainty
estimation of the Q-Value function, which guides the sampling to explore more
significant transitions and, thus, learn a more efficient policy. Experiments
on classical control environments demonstrate stable results across various
environments. They show that the proposed method outperforms state-of-the-art
sampling strategies for dense rewards w.r.t. convergence and peak performance
by 26% on average.
- Abstract(参考訳): データ選択は強化学習のようなあらゆるデータベースの最適化技術に不可欠である。
経験再生バッファのための最先端サンプリング戦略は強化学習エージェントの性能を向上させる。
しかし、Q値推定には不確実性は組み込まれていない。
したがって、移行の探索や搾取を含むサンプリング戦略をタスクの複雑さに適応させることはできない。
そこで本稿では,探索・爆発トレードオフを利用した新たなサンプリング戦略を提案する。
これは、サンプリングを導くq値関数の不確実性推定によって実現され、より重要な遷移を探索し、より効率的なポリシーを学ぶ。
古典的制御環境の実験は、様々な環境にまたがって安定した結果を示す。
提案手法は,集中的な報酬に対する最先端のサンプリング戦略を上回っており,平均で26%の収束率とピーク性能が得られた。
関連論文リスト
- Memory Sequence Length of Data Sampling Impacts the Adaptation of Meta-Reinforcement Learning Agents [1.971759811837406]
メタRLエージェントの探索と適応性に及ぼすデータサンプリング戦略の影響について検討する。
解析の結果,長メモリおよび短メモリシーケンスサンプリング戦略がメタRLエージェントの表現能力および適応能力に影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-18T07:41:40Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Gradient and Uncertainty Enhanced Sequential Sampling for Global Fit [0.0]
本稿では、GUESS(Gradient and Uncertainty Enhanced Sequential Smpling)と呼ばれる、グローバル適合のための新しいサンプリング戦略を提案する。
GUESSは, 実験例における他のサロゲート型戦略と比較して, 平均的な試料効率で達成された。
論文 参考訳(メタデータ) (2023-09-29T19:49:39Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Impact of Channel Variation on One-Class Learning for Spoof Detection [5.549602650463701]
スポット検出はASVシステムの信頼性を高めるが、チャネルの変動により著しく低下する。
MCTに最適なデータ供給戦略は何か?スプーフ検出では分かっていない。
本研究は、データ供給とミニバッチの低重要度プロセスが、より良いパフォーマンスのために改善する必要性の認識を高めることの関連性を強調した。
論文 参考訳(メタデータ) (2021-09-30T07:56:16Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Federated Learning under Importance Sampling [49.17137296715029]
本研究は, サンプリングエージェントと非均一に誘導されるデータに対する重要サンプリングと工夫の効果について検討する。
代替のないサンプリングを含むスキームでは,結果のアーキテクチャの性能は,各エージェントのデータ変動性に関連する2つの要因によって制御される。
論文 参考訳(メタデータ) (2020-12-14T10:08:55Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。
過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。
統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。
本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文 参考訳(メタデータ) (2020-02-17T13:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。