論文の概要: Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective
- arxiv url: http://arxiv.org/abs/2412.12276v3
- Date: Mon, 02 Jun 2025 12:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:42.932312
- Title: Emergence and Effectiveness of Task Vectors in In-Context Learning: An Encoder Decoder Perspective
- Title(参考訳): インコンテキスト学習におけるタスクベクトルの創発と有効性:エンコーダデコーダの視点
- Authors: Seungwook Han, Jinyeop Song, Jeff Gore, Pulkit Agrawal,
- Abstract要約: プレトレーニング中にトランスフォーマーがどのようにタスクベクトルを形成し、そのタスク符号化品質がICLタスク性能を予測するかを検討する。
私たちの経験的洞察は、その表現を通じて、大きな言語モデルの成功と失敗モードの理解を深めました。
- 参考スコア(独自算出の注目度): 18.077009146950473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive transformers exhibit adaptive learning through in-context learning (ICL), which begs the question of how. Prior works have shown that transformers represent the ICL tasks as vectors in their representations. In this paper, we leverage the encoding-decoding framework to study how transformers form task vectors during pretraining and how their task encoding quality predicts ICL task performance. On synthetic ICL tasks, we analyze the training dynamics of a small transformer and report the coupled emergence of task encoding and decoding. As the model learns to encode different latent tasks (e.g., "Finding the first noun in a sentence.") into distinct, separable representations, it concurrently builds conditional decoding algorithms and improves its ICL performance. We validate this phenomenon across pretrained models of varying scales (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B) and over the course of pretraining in OLMo-7B. Further, we demonstrate that the quality of task encoding inferred from representations predicts ICL performance, and that, surprisingly, finetuning the earlier layers can improve the task encoding and performance more than finetuning the latter layers. Our empirical insights shed light into better understanding the success and failure modes of large language models via their representations.
- Abstract(参考訳): 自己回帰変換器は、文脈内学習(ICL)を通して適応学習を示す。
以前の研究によると、トランスフォーマーはICLタスクを表現のベクトルとして表現している。
本稿では,符号化・復号化フレームワークを活用し,事前学習中にトランスフォーマーがタスクベクトルを生成する方法と,そのタスク符号化品質がICLタスク性能を予測する方法について検討する。
合成ICLタスクにおいて、小型変圧器のトレーニングダイナミクスを分析し、タスクエンコーディングと復号の同時発生を報告する。
モデルが様々な潜在タスク(例:「文の最初の名詞をファインディングする」など)を別個の表現に符号化することを学ぶと、条件付き復号アルゴリズムを同時に構築し、ICLの性能を向上させる。
様々なスケールの事前訓練モデル(Gemma-2 2B/9B/27B,Llama-3.1 8B/70B)とOLMo-7Bの事前訓練の過程で,この現象を検証した。
さらに、表現から推定されるタスクエンコーディングの品質がICL性能を予測し、驚くべきことに、以前のレイヤを微調整することで、後者のレイヤを微調整するよりも、タスクエンコーディングとパフォーマンスを向上させることができることを示した。
私たちの経験的洞察は、その表現を通じて、大きな言語モデルの成功と失敗モードの理解を深めました。
関連論文リスト
- Take Off the Training Wheels Progressive In-Context Learning for Effective Alignment [22.224737528266598]
本稿では,アライメントタスクにおけるトークン表現に対するデモの効果について検討する。
2段階からなる効率的なプログレッシブ・イン・コンテクストアライメント(PICA)手法を提案する。
我々の研究は、ICLのアライメントへの応用を強調し、複雑な世代に対するICLのより深い理解を求める。
論文 参考訳(メタデータ) (2025-03-13T02:01:02Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Understanding Knowledge Hijack Mechanism in In-context Learning through Associative Memory [37.93644115914534]
In-context Learning (ICL) は、大規模言語モデルが微調整なしで新しいタスクに適応できるようにする。
本稿では,トークン予測における文脈内情報と事前学習したビッグラム知識のバランスについて検討する。
論文 参考訳(メタデータ) (2024-12-16T05:33:05Z) - A Progressive Transformer for Unifying Binary Code Embedding and Knowledge Transfer [15.689556592544667]
本稿では,バイナリコード埋め込みのための新しいトランスフォーマーベースの手法であるProTSTを紹介する。
ProTSTは、独特の木のような構造に基づく階層的なトレーニングプロセスを採用している。
その結果, ProTSTは従来の2段階トレーニングに比べて14.8%改善した(F1, MRR, Recall@1)。
論文 参考訳(メタデータ) (2024-12-15T13:04:29Z) - Sparse autoencoders reveal selective remapping of visual concepts during adaptation [54.82630842681845]
特定の目的のために基礎モデルを適用することは、機械学習システムを構築するための標準的なアプローチとなっている。
PatchSAEと呼ばれるCLIPビジョントランスのための新しいスパースオートエンコーダ(SAE)を開発し、解釈可能な概念を抽出する。
論文 参考訳(メタデータ) (2024-12-06T18:59:51Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。
CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
論文 参考訳(メタデータ) (2024-10-16T18:10:50Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - In-Context Learning for MIMO Equalization Using Transformer-Based
Sequence Models [44.161789477821536]
大規模な事前学習シーケンスモデルには、コンテキスト内学習(ICL)を実行する能力がある
ICLでは、新しい入力に関する決定は、入力の直接マッピングと与えられたタスクからのいくつかの例を通して行われる。
我々は,変圧器をベースとしたICLのしきい値挙動を数値計算により示す。
論文 参考訳(メタデータ) (2023-11-10T15:09:04Z) - Towards Understanding How Transformers Learn In-context Through a Representation Learning Lens [9.590540796223715]
本稿では,表現学習のレンズを用いて,トランスフォーマーにおける文脈内学習プロセスについて検討する。
注目層のICL推論プロセスは、その2重モデルのトレーニング手順と整合し、トークン表現予測を生成する。
理論的結論は、1つのトランスフォーマー層と複数の注意層を含む、より複雑なシナリオにまで拡張します。
論文 参考訳(メタデータ) (2023-10-20T01:55:34Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - A Meta-Learning Perspective on Transformers for Causal Language Modeling [17.293733942245154]
Transformerアーキテクチャは、大規模な因果言語モデルの開発において顕著になっている。
因果言語モデリングタスクのトレーニングにおいて,トランスフォーマーアーキテクチャのメタラーニングビューを確立する。
内部最適化では,Transformerに基づく因果言語モデルにおいて,学習トークン表現のノルムの特別な特徴を発見し,理論的に解析する。
論文 参考訳(メタデータ) (2023-10-09T17:27:36Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。