論文の概要: Which Experiences Are Influential for RL Agents? Efficiently Estimating The Influence of Experiences
- arxiv url: http://arxiv.org/abs/2405.14629v2
- Date: Fri, 04 Oct 2024 12:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:07:41.032814
- Title: Which Experiences Are Influential for RL Agents? Efficiently Estimating The Influence of Experiences
- Title(参考訳): RL剤にはどのような効果があるのか : 有効性評価による影響評価
- Authors: Takuya Hiraoka, Guanquan Wang, Takashi Onishi, Yoshimasa Tsuruoka,
- Abstract要約: 経験的なリプレイを伴う強化学習(RL)では、リプレイバッファに格納された経験がRLエージェントのパフォーマンスに影響を与える。
経験の影響を推定する1つの方法は、LOO法である。
ターンオーバー・ドロップアウト(PIToD)によるポリシー・イテレーションを行い,経験の影響を効率的に推定する。
- 参考スコア(独自算出の注目度): 15.81191445609191
- License:
- Abstract: In reinforcement learning (RL) with experience replay, experiences stored in a replay buffer influence the RL agent's performance. Information about how these experiences influence the agent's performance is valuable for various purposes, such as identifying experiences that negatively influence underperforming agents. One method for estimating the influence of experiences is the leave-one-out (LOO) method. However, this method is usually computationally prohibitive. In this paper, we present Policy Iteration with Turn-over Dropout (PIToD), which efficiently estimates the influence of experiences. We evaluate how accurately PIToD estimates the influence of experiences and its efficiency compared to LOO. We then apply PIToD to amend underperforming RL agents, i.e., we use PIToD to estimate negatively influential experiences for the RL agents and to delete the influence of these experiences. We show that RL agents' performance is significantly improved via amendments with PIToD.
- Abstract(参考訳): 経験的なリプレイを伴う強化学習(RL)では、リプレイバッファに格納された経験がRLエージェントのパフォーマンスに影響を与える。
これらの経験がエージェントのパフォーマンスにどのように影響するかに関する情報は、パフォーマンスの低いエージェントに悪影響を及ぼす経験を特定するなど、様々な目的のために有用である。
経験の影響を推定する1つの方法は、LOO法である。
しかし、この方法は通常計算は禁じられている。
本稿では,ターンオーバー・ドロップアウト(PIToD)によるポリシー・イテレーションを提案し,経験の影響を効率的に評価する。
PIToD が LOO と比較して経験と効率に与える影響を正確に評価した。
次に, PIToD を用いて低性能な RL エージェント, すなわち, PIToD を用いて, RL エージェントに対する負の影響力のある経験を推定し, それらの影響を除去する。
PIToDの修正によりRLエージェントの性能は大幅に改善された。
関連論文リスト
- Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T11:33:49Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - Which Experiences Are Influential for Your Agent? Policy Iteration with
Turn-over Dropout [15.856188608650228]
本稿では,ターンオーバードロップアウトを利用して,経験の影響を効率的に推定する政策イテレーションとしてPI+ToDを提案する。
We demonstrate the efficiency of PI+ToD with experiment in MuJoCo environment。
論文 参考訳(メタデータ) (2023-01-26T15:13:04Z) - Fair Effect Attribution in Parallel Online Experiments [57.13281584606437]
A/Bテストは、オンラインサービスで導入された変更の影響を確実に特定する目的で役立ちます。
オンラインプラットフォームでは,ユーザトラフィックをランダムに分割して多数の同時実験を行うのが一般的である。
異なるグループ間の完全なランダム化にもかかわらず、同時実験は互いに相互作用し、平均的な集団の結果に負の影響をもたらす。
論文 参考訳(メタデータ) (2022-10-15T17:15:51Z) - Experiential Explanations for Reinforcement Learning [15.80179578318569]
強化学習システムは複雑で解釈不能である。
本稿では,実証説明手法を提案する。
論文 参考訳(メタデータ) (2022-10-10T14:27:53Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - On the impact of MDP design for Reinforcement Learning agents in
Resource Management [0.8223798883838329]
我々は,MDPの4つのバリエーションを比較し,その計算要求とエージェント性能への影響を論じる。
マルチレイヤ・パーセプトロンを近似関数として使用する場合、コンパクトな状態表現は環境間のエージェントの移動を可能にする。
論文 参考訳(メタデータ) (2021-09-07T17:13:11Z) - Causal Influence Detection for Improving Efficiency in Reinforcement
Learning [11.371889042789219]
条件付き相互情報に基づく状況依存因果関係の尺度を導入する。
影響の状態を確実に検出できることが示される。
修正アルゴリズムはすべて、ロボット操作タスクにおけるデータ効率の大幅な向上を示している。
論文 参考訳(メタデータ) (2021-06-07T09:21:56Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。