論文の概要: Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in
Transformer Models
- arxiv url: http://arxiv.org/abs/2311.00871v1
- Date: Wed, 1 Nov 2023 21:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:29:00.569517
- Title: Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in
Transformer Models
- Title(参考訳): 変圧器モデルの狭義モデル選択機能を実現するデータ混合の事前学習
- Authors: Steve Yadlowsky, Lyric Doshi, Nilesh Tripuraneni
- Abstract要約: トランスフォーマーモデルには、コンテキスト内学習(ICL)を実行する驚くべき能力がある
本研究は, トランスフォーマーが事前学習データ混合物間の橋渡しを効果的に行う方法について検討する。
以上の結果から,高容量シーケンスモデルの印象的なICL能力は,インダクティブバイアスよりも事前学習データ混合のカバレッジに密接に関係している可能性が示唆された。
- 参考スコア(独自算出の注目度): 9.340409961107955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models, notably large language models (LLMs), have the remarkable
ability to perform in-context learning (ICL) -- to perform new tasks when
prompted with unseen input-output examples without any explicit model training.
In this work, we study how effectively transformers can bridge between their
pretraining data mixture, comprised of multiple distinct task families, to
identify and learn new tasks in-context which are both inside and outside the
pretraining distribution. Building on previous work, we investigate this
question in a controlled setting, where we study transformer models trained on
sequences of $(x, f(x))$ pairs rather than natural language. Our empirical
results show transformers demonstrate near-optimal unsupervised model selection
capabilities, in their ability to first in-context identify different task
families and in-context learn within them when the task families are
well-represented in their pretraining data. However when presented with tasks
or functions which are out-of-domain of their pretraining data, we demonstrate
various failure modes of transformers and degradation of their generalization
for even simple extrapolation tasks. Together our results highlight that the
impressive ICL abilities of high-capacity sequence models may be more closely
tied to the coverage of their pretraining data mixtures than inductive biases
that create fundamental generalization capabilities.
- Abstract(参考訳): トランスフォーマモデル、特に大言語モデル(llm)は、明示的なモデルトレーニングなしで、意図せぬ入力出力例で促された場合、新しいタスクを実行するための、コンテキスト内学習(icl)を行う素晴らしい能力を持っています。
本研究では,複数のタスクファミリからなるプリトレーニングデータ混合間で,トランスフォーマがいかに効果的にブリッジし,プリトレーニング分散の内部と外部の両方にあるコンテキスト内で新しいタスクを識別し学習できるかについて検討する。
そこで我々は、自然言語ではなく、$(x, f(x))$ペアの列で訓練されたトランスフォーマーモデルについて検討する。
実験の結果,トランスフォーマーは,タスクファミリが事前学習データでよく表現されている場合に,まずタスクファミリを識別し,内部で学習する能力において,最適に近いモデル選択能力を示す。
しかし、プリトレーニングデータのドメイン外であるタスクや関数を提示すると、トランスフォーマの様々な障害モードと、単純な外挿タスクに対する一般化の低下が示される。
以上の結果から,高容量系列モデルのicl能力は,基礎的な一般化能力を生み出す帰納的バイアスよりも,事前学習データ混合のカバレッジと密接に関連している可能性が示唆された。
関連論文リスト
- In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。
本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。
我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-02T17:25:34Z) - In-Context Learning for MIMO Equalization Using Transformer-Based
Sequence Models [44.161789477821536]
大規模な事前学習シーケンスモデルには、コンテキスト内学習(ICL)を実行する能力がある
ICLでは、新しい入力に関する決定は、入力の直接マッピングと与えられたタスクからのいくつかの例を通して行われる。
我々は,変圧器をベースとしたICLのしきい値挙動を数値計算により示す。
論文 参考訳(メタデータ) (2023-11-10T15:09:04Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z) - End-to-end spoken language understanding using transformer networks and
self-supervised pre-trained features [17.407912171579852]
トランスフォーマーネットワークと自己教師型事前学習は、自然言語処理(NLP)分野における最先端の成果を一貫して提供してきた。
本稿では,自己教師付き事前学習音響特徴の活用が可能なモジュール型End-to-End (E2E) SLUトランスフォーマーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-16T19:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。