論文の概要: In-context Reinforcement Learning with Algorithm Distillation
- arxiv url: http://arxiv.org/abs/2210.14215v1
- Date: Tue, 25 Oct 2022 17:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:46:50.519633
- Title: In-context Reinforcement Learning with Algorithm Distillation
- Title(参考訳): アルゴリズム蒸留による文脈内強化学習
- Authors: Michael Laskin, Luyu Wang, Junhyuk Oh, Emilio Parisotto, Stephen
Spencer, Richie Steigerwald, DJ Strouse, Steven Hansen, Angelos Filos, Ethan
Brooks, Maxime Gazeau, Himanshu Sahni, Satinder Singh, Volodymyr Mnih
- Abstract要約: 本稿では,ニューラルネットワークに強化学習アルゴリズムを蒸留する手法を提案し,そのトレーニング履歴を因果シーケンスモデルを用いてモデル化する。
学習履歴のデータセットは、ソースRLアルゴリズムによって生成され、その後、因果変換器は、先行した学習履歴を文脈として、自己回帰的に行動を予測することによって訓練される。
我々は,ADが様々な環境において,スパース報酬,タスク構造,ピクセルベースの観察でコンテキストを学習できることを示し,ADがソースデータを生成するものよりも,よりデータ効率のよいRLアルゴリズムを学習できることを見出した。
- 参考スコア(独自算出の注目度): 35.72003039559626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Algorithm Distillation (AD), a method for distilling reinforcement
learning (RL) algorithms into neural networks by modeling their training
histories with a causal sequence model. Algorithm Distillation treats learning
to reinforcement learn as an across-episode sequential prediction problem. A
dataset of learning histories is generated by a source RL algorithm, and then a
causal transformer is trained by autoregressively predicting actions given
their preceding learning histories as context. Unlike sequential policy
prediction architectures that distill post-learning or expert sequences, AD is
able to improve its policy entirely in-context without updating its network
parameters. We demonstrate that AD can reinforcement learn in-context in a
variety of environments with sparse rewards, combinatorial task structure, and
pixel-based observations, and find that AD learns a more data-efficient RL
algorithm than the one that generated the source data.
- Abstract(参考訳): 本稿では,RLアルゴリズムをニューラルネットワークに蒸留する方法であるアルゴリズム蒸留(AD)を提案し,そのトレーニング履歴を因果シーケンスモデルを用いてモデル化する。
アルゴリズム蒸留は学習を総合的な逐次予測問題として扱う。
学習履歴のデータセットをソースrlアルゴリズムにより生成し、先行学習履歴を文脈として、自己回帰的に行動を予測することにより因果トランスフォーマを訓練する。
ポストラーニングやエキスパートシーケンスを蒸留するシーケンシャルなポリシー予測アーキテクチャとは異なり、ADはネットワークパラメータを更新することなく、完全にコンテキスト内でポリシーを改善することができる。
我々は,ADが様々な環境において,余分な報酬,組合せ的タスク構造,ピクセルベースの観察によって学習のインコンテキストを強化できることを示し,ADがソースデータを生成するものよりも,よりデータ効率のよいRLアルゴリズムを学習していることを見出した。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Reinforcement Learning for Topic Models [3.42658286826597]
本稿では,ProdLDAにおける変分オートエンコーダを連続行動空間強化学習ポリシーに置き換えることにより,トピックモデリングに強化学習手法を適用した。
ニューラルネットワークアーキテクチャの近代化、ELBO損失の重み付け、コンテキスト埋め込みの使用、トピックの多様性と一貫性の計算による学習プロセスの監視など、いくつかの変更を導入している。
論文 参考訳(メタデータ) (2023-05-08T16:41:08Z) - KRLS: Improving End-to-End Response Generation in Task Oriented Dialog
with Reinforced Keywords Learning [25.421649004269373]
タスク指向ダイアログ(TOD)では、強化学習アルゴリズムがタスク関連メトリクスの応答を直接最適化するためにモデルを訓練する。
オフライン環境でのTOD性能を改善するために,より効率的なRLベースのアルゴリズムを提案する。
MultiWoZデータセットの実験では、我々の新しいトレーニングアルゴリズムであるKeywords Reinforcement Learning with Next-word Smpling (KRLS)が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-11-30T06:27:46Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。