論文の概要: Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining
- arxiv url: http://arxiv.org/abs/2310.08566v2
- Date: Sun, 26 May 2024 04:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:38:36.648239
- Title: Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining
- Title(参考訳): 意思決定者としてのトランスフォーマー: 教師付き事前学習による確率的インテクスト強化学習
- Authors: Licong Lin, Yu Bai, Song Mei,
- Abstract要約: 本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
- 参考スコア(独自算出の注目度): 25.669038513039357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large transformer models pretrained on offline reinforcement learning datasets have demonstrated remarkable in-context reinforcement learning (ICRL) capabilities, where they can make good decisions when prompted with interaction trajectories from unseen environments. However, when and how transformers can be trained to perform ICRL have not been theoretically well-understood. In particular, it is unclear which reinforcement-learning algorithms transformers can perform in context, and how distribution mismatch in offline training data affects the learned algorithms. This paper provides a theoretical framework that analyzes supervised pretraining for ICRL. This includes two recently proposed training methods -- algorithm distillation and decision-pretrained transformers. First, assuming model realizability, we prove the supervised-pretrained transformer will imitate the conditional expectation of the expert algorithm given the observed trajectory. The generalization error will scale with model capacity and a distribution divergence factor between the expert and offline algorithms. Second, we show transformers with ReLU attention can efficiently approximate near-optimal online reinforcement learning algorithms like LinUCB and Thompson sampling for stochastic linear bandits, and UCB-VI for tabular Markov decision processes. This provides the first quantitative analysis of the ICRL capabilities of transformers pretrained from offline trajectories.
- Abstract(参考訳): オフラインの強化学習データセットで事前訓練された大きなトランスフォーマーモデルは、目に見えない環境からの相互作用軌跡に刺激されて適切な判断を下すことができる、顕著なコンテキスト内強化学習(ICRL)能力を示している。
しかし、ICRLを実行するためにトランスフォーマーをいつ、どのように訓練するかは理論的にはよく理解されていない。
特に、強化学習アルゴリズムがどのような状況で実行可能であるか、オフライントレーニングデータにおける分布ミスマッチが学習アルゴリズムに与える影響は不明確である。
本稿では、ICRLの教師付き事前学習を分析する理論的枠組みを提供する。
これには、最近提案された2つのトレーニング手法、すなわちアルゴリズムの蒸留と決定予測変換器が含まれる。
まず、モデル実現可能性を想定して、教師付き予測変換器が観測された軌道からの専門家アルゴリズムの条件予測を模倣することを示す。
一般化エラーは、モデルのキャパシティと、エキスパートアルゴリズムとオフラインアルゴリズムの間の分散分散係数でスケールする。
第2に、ReLUに着目した変換器は、確率線形包帯のLinUCBやThompsonサンプリング、表形式マルコフ決定過程のUPB-VIといった、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
これは、オフライン軌道から事前訓練された変換器のICRL能力を初めて定量的に分析する。
関連論文リスト
- Understanding the Training and Generalization of Pretrained Transformer for Sequential Decision Making [7.8816327398541635]
逐次的意思決定問題に対する教師付き事前学習型変換器について検討する。
このような構造は、事前学習フェーズにおける最適なアクション/決定の使用を可能にする。
論文 参考訳(メタデータ) (2024-05-23T06:28:44Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。