論文の概要: Supervised Pretraining Can Learn In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.14892v1
- Date: Mon, 26 Jun 2023 17:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:08:13.308525
- Title: Supervised Pretraining Can Learn In-Context Reinforcement Learning
- Title(参考訳): 教師付き事前学習は文脈強化学習を学習できる
- Authors: Jonathan N. Lee, Annie Xie, Aldo Pacchiano, Yash Chandak, Chelsea
Finn, Ofir Nachum, Emma Brunskill
- Abstract要約: 本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
- 参考スコア(独自算出の注目度): 96.62869749926415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large transformer models trained on diverse datasets have shown a remarkable
ability to learn in-context, achieving high few-shot performance on tasks they
were not explicitly trained to solve. In this paper, we study the in-context
learning capabilities of transformers in decision-making problems, i.e.,
reinforcement learning (RL) for bandits and Markov decision processes. To do
so, we introduce and study Decision-Pretrained Transformer (DPT), a supervised
pretraining method where the transformer predicts an optimal action given a
query state and an in-context dataset of interactions, across a diverse set of
tasks. This procedure, while simple, produces a model with several surprising
capabilities. We find that the pretrained transformer can be used to solve a
range of RL problems in-context, exhibiting both exploration online and
conservatism offline, despite not being explicitly trained to do so. The model
also generalizes beyond the pretraining distribution to new tasks and
automatically adapts its decision-making strategies to unknown structure.
Theoretically, we show DPT can be viewed as an efficient implementation of
Bayesian posterior sampling, a provably sample-efficient RL algorithm. We
further leverage this connection to provide guarantees on the regret of the
in-context algorithm yielded by DPT, and prove that it can learn faster than
algorithms used to generate the pretraining data. These results suggest a
promising yet simple path towards instilling strong in-context decision-making
abilities in transformers.
- Abstract(参考訳): さまざまなデータセットでトレーニングされた大規模トランスフォーマーモデルでは、コンテキスト内学習能力が著しく向上し、明示的にトレーニングされていないタスクで高い少数ショットのパフォーマンスを達成している。
本稿では,意思決定問題におけるトランスフォーマーの文脈内学習能力,すなわちバンディットのための強化学習(RL)とマルコフ決定過程について検討する。
そこで本研究では,クエリ状態と対話のコンテキスト内データセットが与えられた最適動作を予測する教師付き事前学習手法であるDPT(Decision-Pretrained Transformer)を,多様なタスクセットにわたって導入・研究する。
この手順は単純ではあるが、いくつかの驚くべき能力を持つモデルを生成する。
事前訓練されたトランスフォーマーは、オンラインと保守主義の両方をオフラインで行うことで、コンテキスト内でのさまざまなRL問題の解決に使用することができる。
このモデルはまた、事前学習された分布を新しいタスクへと一般化し、意思決定戦略を未知の構造に自動的に適応させる。
理論的には, DPT はベイジアン後方サンプリングの効率的な実装であり, 確実にサンプル効率のよい RL アルゴリズムであることを示す。
我々はさらに,dptが生み出す文脈内アルゴリズムの後悔を保証し,事前学習データを生成するアルゴリズムよりも高速に学習できることを証明するために,この接続を利用する。
これらの結果から,変換器の強い文脈内意思決定能力を実現するための,有望かつシンプルな方法が示唆された。
関連論文リスト
- Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。
本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。
我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-02T17:25:34Z) - Pretraining Decision Transformers with Reward Prediction for In-Context Multi-task Structured Bandit Learning [12.608461657195367]
本研究では,累積的後悔を最小限に抑える近似アルゴリズムの学習を目標とするマルチタスク構造化バンディット問題について検討する。
我々は、この共有構造を学習するために、トランスフォーマーを意思決定アルゴリズムとして使用し、テストタスクに一般化する。
提案アルゴリズムは,問題の根底にある構造を知ることなく,コンテキスト内でほぼ最適のポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T16:34:31Z) - Transformers for Supervised Online Continual Learning [11.270594318662233]
オンライン連続学習に変換器のコンテキスト内学習機能を活用する手法を提案する。
本手法は,画像位置定位のための大規模実世界ベンチマークであるCLOCにおいて,過去の最先端結果よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-03-03T16:12:20Z) - Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Future-conditioned Unsupervised Pretraining for Decision Transformer [19.880628629512504]
我々は、教師なしRL事前学習のための概念的にシンプルなアプローチとして、事前学習型決定変換器(PDT)を提案する。
PDTは、訓練中の行動を予測するために、将来の軌跡情報を特権的な文脈として活用する。
オフラインデータから多様な振る舞いを抽出し、オンラインの微調整によってハイリターン動作を制御できる。
論文 参考訳(メタデータ) (2023-05-26T07:05:08Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。