論文の概要: Understanding the Training and Generalization of Pretrained Transformer for Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2405.14219v2
- Date: Wed, 02 Oct 2024 12:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:03.916213
- Title: Understanding the Training and Generalization of Pretrained Transformer for Sequential Decision Making
- Title(参考訳): シーケンス決定のための事前学習型変圧器の訓練と一般化の理解
- Authors: Hanzhao Wang, Yu Pan, Fupeng Sun, Shang Liu, Kalyan Talluri, Guanting Chen, Xiaocheng Li,
- Abstract要約: 逐次的意思決定問題に対する教師付き事前学習型変換器について検討する。
このような構造は、事前学習フェーズにおける最適なアクション/決定の使用を可能にする。
- 参考スコア(独自算出の注目度): 7.8816327398541635
- License:
- Abstract: In this paper, we consider the supervised pre-trained transformer for a class of sequential decision-making problems. The class of considered problems is a subset of the general formulation of reinforcement learning in that there is no transition probability matrix; though seemingly restrictive, the subset class of problems covers bandits, dynamic pricing, and newsvendor problems as special cases. Such a structure enables the use of optimal actions/decisions in the pre-training phase, and the usage also provides new insights for the training and generalization of the pre-trained transformer. We first note the training of the transformer model can be viewed as a performative prediction problem, and the existing methods and theories largely ignore or cannot resolve an out-of-distribution issue. We propose a natural solution that includes the transformer-generated action sequences in the training procedure, and it enjoys better properties both numerically and theoretically. The availability of the optimal actions in the considered tasks also allows us to analyze the properties of the pre-trained transformer as an algorithm and explains why it may lack exploration and how this can be automatically resolved. Numerically, we categorize the advantages of pre-trained transformers over the structured algorithms such as UCB and Thompson sampling into three cases: (i) it better utilizes the prior knowledge in the pre-training data; (ii) it can elegantly handle the misspecification issue suffered by the structured algorithms; (iii) for short time horizon such as $T\le50$, it behaves more greedy and enjoys much better regret than the structured algorithms designed for asymptotic optimality.
- Abstract(参考訳): 本稿では,逐次的意思決定問題に対する教師付き事前学習型変換器について考察する。
考察された問題のクラスは、遷移確率行列が存在しないという、強化学習の一般的な定式化のサブセットである。
このような構造は、事前訓練フェーズにおける最適動作/決定の活用を可能にし、事前訓練されたトランスフォーマーのトレーニングと一般化のための新たな洞察を提供する。
まず, 変圧器モデルのトレーニングを性能予測問題とみなすことができ, 既存の手法や理論は, アウト・オブ・ディストリビューション問題をほとんど無視するか, 解決できないことに注意する。
本稿では, 学習手順にトランスフォーマー生成動作列を含む自然な解を提案し, 数値的および理論的に良好な特性を享受する。
また,学習前のトランスフォーマーの特性をアルゴリズムとして解析し,探索に欠ける理由と,それを自動的に解決する方法について説明する。
数値的には、UPBやトンプソンサンプリングのような構造化アルゴリズムに対する事前学習型トランスフォーマーの利点を3つのケースに分類する。
(i)事前学習データにおいて事前知識を活用すべきである。
二 構造化アルゴリズムが抱える誤特定問題に優雅に対処することができること。
(iii)$T\le50$のような短時間の地平線では、漸近的最適性のために設計された構造的アルゴリズムよりも、より欲張り深く、後悔に満ちている。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Linear Transformers are Versatile In-Context Learners [21.444440482020994]
任意の線形変圧器が暗黙の線形モデルを維持していることを証明し、事前条件付き勾配勾配の変種として解釈できる。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Uncovering mesa-optimization algorithms in Transformers [27.180287282321576]
トランスフォーマーの強い性能は、アーキテクチャ上のバイアスからメザ最適化に起因していることを示す。
本稿では,コンテキストに規定された最適化問題を明確かつ効率的に解決する,新たな自己注意層であるメザ層を提案する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。