論文の概要: Context-Scaling versus Task-Scaling in In-Context Learning
- arxiv url: http://arxiv.org/abs/2410.12783v1
- Date: Wed, 16 Oct 2024 17:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:10.562468
- Title: Context-Scaling versus Task-Scaling in In-Context Learning
- Title(参考訳): 文脈学習における文脈スケーリングとタスクスケーリング
- Authors: Amirhesam Abedsoltan, Adityanarayanan Radhakrishnan, Jingfeng Wu, Mikhail Belkin,
- Abstract要約: In-Context Learning (ICL: In-Context Learning) の2つの重要なコンポーネント、コンテキストスケーリングとタスクスケーリングを分析します。
コンテクストスケーリングとタスクスケーリングの両方が可能であるが、ベクトル化された入力を持つ標準的なマルチ層パーセプトロン(MLP)はタスクスケーリングしかできないことを実証的に示す。
- 参考スコア(独自算出の注目度): 17.36757113301424
- License:
- Abstract: Transformers exhibit In-Context Learning (ICL), where these models solve new tasks by using examples in the prompt without additional training. In our work, we identify and analyze two key components of ICL: (1) context-scaling, where model performance improves as the number of in-context examples increases and (2) task-scaling, where model performance improves as the number of pre-training tasks increases. While transformers are capable of both context-scaling and task-scaling, we empirically show that standard Multi-Layer Perceptrons (MLPs) with vectorized input are only capable of task-scaling. To understand how transformers are capable of context-scaling, we first propose a significantly simplified transformer architecture without key, query, value weights. We show that it performs ICL comparably to the original GPT-2 model in various statistical learning tasks including linear regression, teacher-student settings. Furthermore, a single block of our simplified transformer can be viewed as data dependent feature map followed by an MLP. This feature map on its own is a powerful predictor that is capable of context-scaling but is not capable of task-scaling. We show empirically that concatenating the output of this feature map with vectorized data as an input to MLPs enables both context-scaling and task-scaling. This finding provides a simple setting to study context and task-scaling for ICL.
- Abstract(参考訳): トランスフォーマーはICL(In-Context Learning)を示し、これらのモデルは追加のトレーニングなしでプロンプトの例を使って新しいタスクを解決する。
本研究では,(1)コンテキストスケーリング,(2)コンテキスト内サンプル数の増加に伴うモデルパフォーマンスの向上,(2)タスクスケーリング,(2)事前学習タスク数の増加に伴いモデルパフォーマンスが向上する,という2つの重要な要素を同定し,解析する。
コンテクストスケーリングとタスクスケーリングの両方が可能であるが、ベクトル化された入力を持つ標準的なマルチ層パーセプトロン(MLP)はタスクスケーリングしかできないことを実証的に示す。
まず,キー,クエリ,値重みのないトランスフォーマーアーキテクチャを提案する。
線形回帰,教師学生設定など,様々な統計的学習タスクにおいて,元のGPT-2モデルと互換性のあるICLを実行することを示す。
さらに、単純化された変換器の1ブロックをデータ依存の特徴マップとみなし、次にMLPとみなすことができる。
この特徴マップは、コンテキストスケーリングが可能ながタスクスケーリングができない強力な予測器である。
この特徴マップの出力とベクトル化データとをMDPへの入力として組み合わせることで、コンテキストスケーリングとタスクスケーリングの両方が可能であることを実証的に示す。
この発見は、ICLのコンテキストとタスクスケーリングを研究するための簡単な設定を提供する。
関連論文リスト
- In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - Does learning the right latent variables necessarily improve in-context learning? [13.828665019247444]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。
本稿では,タスクラテントを明示的に推論する効果について検討する。
タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文 参考訳(メタデータ) (2024-05-29T15:06:10Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - In-Context Learning for MIMO Equalization Using Transformer-Based
Sequence Models [44.161789477821536]
大規模な事前学習シーケンスモデルには、コンテキスト内学習(ICL)を実行する能力がある
ICLでは、新しい入力に関する決定は、入力の直接マッピングと与えられたタスクからのいくつかの例を通して行われる。
我々は,変圧器をベースとしたICLのしきい値挙動を数値計算により示す。
論文 参考訳(メタデータ) (2023-11-10T15:09:04Z) - Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in
Transformer Models [9.340409961107955]
トランスフォーマーモデルには、コンテキスト内学習(ICL)を実行する驚くべき能力がある
本研究は, トランスフォーマーが事前学習データ混合物間の橋渡しを効果的に行う方法について検討する。
以上の結果から,高容量シーケンスモデルの印象的なICL能力は,インダクティブバイアスよりも事前学習データ混合のカバレッジに密接に関係している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-01T21:41:08Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。