論文の概要: Retrieval-Augmented Decision Transformer: External Memory for In-context RL
- arxiv url: http://arxiv.org/abs/2410.07071v1
- Date: Wed, 9 Oct 2024 17:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:47:06.398248
- Title: Retrieval-Augmented Decision Transformer: External Memory for In-context RL
- Title(参考訳): Retrieval-Augmented Decision Transformer:In-context RLのための外部メモリ
- Authors: Thomas Schmied, Fabian Paischer, Vihang Patil, Markus Hofmarcher, Razvan Pascanu, Sepp Hochreiter,
- Abstract要約: Retrieval-Augmented Decision Transformer (RA-DT)を紹介する。
RA-DTは、過去の体験を格納するために外部メモリ機構を使用し、現在の状況に関連するサブトラジェクトリのみを取得する。
我々は,RA-DTのグリッドワールド環境,ロボットシミュレーション,手続き的に生成したビデオゲームにおける能力を評価する。
- 参考スコア(独自算出の注目度): 20.06696368770274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) is the ability of a model to learn a new task by observing a few exemplars in its context. While prevalent in NLP, this capability has recently also been observed in Reinforcement Learning (RL) settings. Prior in-context RL methods, however, require entire episodes in the agent's context. Given that complex environments typically lead to long episodes with sparse rewards, these methods are constrained to simple environments with short episodes. To address these challenges, we introduce Retrieval-Augmented Decision Transformer (RA-DT). RA-DT employs an external memory mechanism to store past experiences from which it retrieves only sub-trajectories relevant for the current situation. The retrieval component in RA-DT does not require training and can be entirely domain-agnostic. We evaluate the capabilities of RA-DT on grid-world environments, robotics simulations, and procedurally-generated video games. On grid-worlds, RA-DT outperforms baselines, while using only a fraction of their context length. Furthermore, we illuminate the limitations of current in-context RL methods on complex environments and discuss future directions. To facilitate future research, we release datasets for four of the considered environments.
- Abstract(参考訳): In-context Learning(ICL)は、モデルがそのコンテキストでいくつかの例を観察することによって新しいタスクを学習する能力である。
NLPで広く使われているが、最近は強化学習(RL)設定でもこの能力が観察されている。
しかし、事前のコンテキスト内RLメソッドは、エージェントのコンテキストにおける全エピソードを必要とする。
複雑な環境は、通常、まばらな報酬を伴う長いエピソードにつながるので、これらの手法は短いエピソードを持つ単純な環境に制約される。
これらの課題に対処するために、我々はRetrieval-Augmented Decision Transformer (RA-DT)を紹介する。
RA-DTは、過去の体験を格納するために外部メモリ機構を使用し、現在の状況に関連するサブトラジェクトリのみを取得する。
RA-DTの検索コンポーネントはトレーニングを必要とせず、完全にドメインに依存しない。
我々は,RA-DTのグリッドワールド環境,ロボットシミュレーション,手続き的に生成したビデオゲームにおける能力を評価する。
グリッドワールドでは、RA-DTはベースラインよりも優れており、コンテキスト長のごく一部しか使用していない。
さらに、複雑な環境における現在のコンテキスト内RL法の限界を照らし、今後の方向性について議論する。
今後の研究を容易にするため、検討された4つの環境のデータセットをリリースする。
関連論文リスト
- N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs [42.446740732573296]
コンテキスト内学習は、トランスフォーマーのようなモデルが重みを更新することなく、新しいタスクに適応できるようにする。
アルゴリズム蒸留(AD)のような既存のコンテキスト内RL手法では、大きく、慎重にキュレートされたデータセットが要求される。
本研究では,n-gram誘導ヘッドをインコンテキストRLの変換器に統合した。
論文 参考訳(メタデータ) (2024-11-04T10:31:03Z) - Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Real-Time Recurrent Learning using Trace Units in Reinforcement Learning [27.250024431890477]
リカレントニューラルネットワーク(RNN)は、部分的に観測可能な環境で表現を学ぶために使用される。
オンラインで学び、環境と継続的に交流するエージェントにとって、リアルタイム反復学習(RTRL)でRNNを訓練することが望ましい。
これらの洞察に基づいて、オンラインRLでRNNをトレーニングするための軽量で効果的なアプローチを提供します。
論文 参考訳(メタデータ) (2024-09-02T20:08:23Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。
本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。
我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Exploring the Promise and Limits of Real-Time Recurrent Learning [14.162274619299902]
シーケンス処理リカレントニューラルネットワーク(RNN)のためのリアルタイムリカレント学習(RTRL)は、時間によるバックプロパゲーション(BPTT)よりもある種の概念上の利点を提供する
DMLab-30, ProcGen, Atari-2600環境のいくつかのサブセットにおいて, RTRLとポリシー勾配を組み合わせたアクタ批判手法を検証した。
本システムは,10BフレームでトレーニングしたIMPALAおよびR2D2ベースラインに比較して,1.2B未満の環境フレームでトレーニングした。
論文 参考訳(メタデータ) (2023-05-30T13:59:21Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。