論文の概要: Retrieval-Augmented Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.08417v1
- Date: Thu, 17 Feb 2022 02:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 15:13:02.105836
- Title: Retrieval-Augmented Reinforcement Learning
- Title(参考訳): 検索型強化学習
- Authors: Anirudh Goyal, Abram L. Friesen, Andrea Banino, Theophane Weber, Nan
Rosemary Ke, Adria Puigdomenech Badia, Arthur Guez, Mehdi Mirza, Ksenia
Konyushkova, Michal Valko, Simon Osindero, Timothy Lillicrap, Nicolas Heess,
Charles Blundell
- Abstract要約: 過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
- 参考スコア(独自算出の注目度): 63.32076191982944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most deep reinforcement learning (RL) algorithms distill experience into
parametric behavior policies or value functions via gradient updates. While
effective, this approach has several disadvantages: (1) it is computationally
expensive, (2) it can take many updates to integrate experiences into the
parametric model, (3) experiences that are not fully integrated do not
appropriately influence the agent's behavior, and (4) behavior is limited by
the capacity of the model. In this paper we explore an alternative paradigm in
which we train a network to map a dataset of past experiences to optimal
behavior. Specifically, we augment an RL agent with a retrieval process
(parameterized as a neural network) that has direct access to a dataset of
experiences. This dataset can come from the agent's past experiences, expert
demonstrations, or any other relevant source. The retrieval process is trained
to retrieve information from the dataset that may be useful in the current
context, to help the agent achieve its goal faster and more efficiently. We
integrate our method into two different RL agents: an offline DQN agent and an
online R2D2 agent. In offline multi-task problems, we show that the
retrieval-augmented DQN agent avoids task interference and learns faster than
the baseline DQN agent. On Atari, we show that retrieval-augmented R2D2 learns
significantly faster than the baseline R2D2 agent and achieves higher scores.
We run extensive ablations to measure the contributions of the components of
our proposed method.
- Abstract(参考訳): ほとんどの深層強化学習(RL)アルゴリズムは、経験をパラメトリックな行動ポリシーや値関数に抽出する。
効果的であるが、このアプローチにはいくつかの欠点がある:(1)計算コストが高い、(2)パラメトリックモデルに経験を統合するために多くの更新を必要とする、(3)完全に統合されていない経験はエージェントの振る舞いに適切に影響しない、(4)行動はモデルの能力によって制限される。
本稿では,過去の経験のデータセットを最適な行動にマップするために,ネットワークを訓練する代替パラダイムを検討する。
具体的には、経験のデータセットに直接アクセス可能な検索プロセス(ニューラルネットワークとしてパラメータ化)でRLエージェントを増強する。
このデータセットは、エージェントの過去の経験、専門家によるデモンストレーション、その他の関連するソースから得られる。
検索プロセスは、現在の文脈で有用なデータセットから情報を取得するように訓練され、エージェントがその目標を迅速かつ効率的に達成するのに役立つ。
オフラインDQNエージェントとオンラインR2D2エージェントの2つの異なるRLエージェントに統合する。
オフラインマルチタスク問題では,検索拡張DQNエージェントはタスク干渉を回避し,ベースラインDQNエージェントよりも高速に学習することを示す。
Atariでは,検索強化R2D2がベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
提案手法の成分の寄与度を測定するため,広範なアブレーションを行った。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Semifactual Explanations for Reinforcement Learning [1.5320737596132754]
強化学習(Reinforcement Learning、RL)は、エージェントが試行錯誤を通じて環境から学習する学習パラダイムである。
ディープ強化学習(DRL)アルゴリズムは、ニューラルネットワークを使用してエージェントのポリシーを表現し、その決定を解釈しにくくする。
DRLエージェントの動作を説明するには,ユーザの信頼を向上し,エンゲージメントを高め,実際のタスクとの統合を容易にする必要がある。
論文 参考訳(メタデータ) (2024-09-09T08:37:47Z) - TrajDeleter: Enabling Trajectory Forgetting in Offline Reinforcement Learning Agents [10.798271657186492]
本稿では、オフラインRLエージェントのための軌道学習のための最初の実践的アプローチであるTrajdeleterを提唱する。
Trajdeleterのキーとなるアイデアは、エージェントをガイドして、未学習の軌跡に関連する状態に遭遇した際のパフォーマンス低下を示すことである。
6つのオフラインRLアルゴリズムと3つのタスクで実施された大規模な実験は、トラジデレターがスクラッチから再トレーニングするのに必要な時間の約1.5%しか必要としていないことを示した。
論文 参考訳(メタデータ) (2024-04-18T22:23:24Z) - Causal Decision Transformer for Recommender Systems via Offline
Reinforcement Learning [23.638418776700522]
我々は、リコメンデータシステムのための因果決定変換器(CDT4Rec)という新しいモデルを提案する。
CDT4Recはオフラインの強化学習システムで、オンラインインタラクションではなくデータセットから学習することができる。
本モデルの有効性と優位性を示すため、6つの実世界のオフラインデータセットと1つのオンラインシミュレータの実験を行った。
論文 参考訳(メタデータ) (2023-04-17T00:05:52Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Believe What You See: Implicit Constraint Approach for Offline
Multi-Agent Reinforcement Learning [16.707045765042505]
現在のオフラインRLアルゴリズムは、累積外挿誤差のため、マルチエージェントシステムでは有効ではない。
本稿では,外挿誤差を効果的に軽減する新しいオフラインRLアルゴリズム,Implicit Constraint Q-learning (ICQ)を提案する。
実験結果から, 外挿誤差はほぼゼロに減少し, エージェント数に敏感であることが示唆された。
論文 参考訳(メタデータ) (2021-06-07T08:02:31Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval [19.723551683930776]
対話型情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェントなど、多くの共通点を共有している。
IIRにRLメソッドをうまく適用するには、RLエージェントを訓練するための十分な関連ラベルを得ることが課題である。
本論文は、ドメインランダム化を用いて、より関連性の高い文書を合成することにより、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-05T00:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。