論文の概要: Revisiting In-context Learning Inference Circuit in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.04468v1
- Date: Sun, 6 Oct 2024 12:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 07:16:09.660953
- Title: Revisiting In-context Learning Inference Circuit in Large Language Models
- Title(参考訳): 大規模言語モデルにおける文脈内学習推論回路の再検討
- Authors: Hakaze Cho, Mariko Kato, Yoshihiro Sakai, Naoya Inoue,
- Abstract要約: In-context Learning (ICL) は、言語モデル(LM)の内的メカニズムを探索せずに学習する、新たな数発学習パラダイムである。
本稿では、推論力学をモデル化し、ICLの観測現象を説明するための包括的回路を提案する。
- 参考スコア(独自算出の注目度): 2.4866936275046405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context Learning (ICL) is an emerging few-shot learning paradigm on Language Models (LMs) with inner mechanisms un-explored. There are already existing works describing the inner processing of ICL, while they struggle to capture all the inference phenomena in large language models. Therefore, this paper proposes a comprehensive circuit to model the inference dynamics and try to explain the observed phenomena of ICL. In detail, we divide ICL inference into 3 major operations: (1) Summarize: LMs encode every input text (demonstrations and queries) into linear representation in the hidden states with sufficient information to solve ICL tasks. (2) Semantics Merge: LMs merge the encoded representations of demonstrations with their corresponding label tokens to produce joint representations of labels and demonstrations. (3) Feature Retrieval and Copy: LMs search the joint representations similar to the query representation on a task subspace, and copy the searched representations into the query. Then, language model heads capture these copied label representations to a certain extent and decode them into predicted labels. The proposed inference circuit successfully captured many phenomena observed during the ICL process, making it a comprehensive and practical explanation of the ICL inference process. Moreover, ablation analysis by disabling the proposed steps seriously damages the ICL performance, suggesting the proposed inference circuit is a dominating mechanism. Additionally, we confirm and list some bypass mechanisms that solve ICL tasks in parallel with the proposed circuit.
- Abstract(参考訳): In-context Learning (ICL) は、言語モデル (LM) 上で、内部メカニズムを探索せずに学習する、新たな数発学習パラダイムである。
ICLの内部処理を記述する研究はすでに存在するが、大きな言語モデルにおけるすべての推論現象を捉えるのに苦労している。
そこで本研究では、推論力学をモデル化し、ICLの観測現象を説明するための包括的な回路を提案する。
1) 要約: LMはすべての入力テキスト(デモとクエリ)を、ICLタスクを解くのに十分な情報を持つ隠された状態の線形表現にエンコードする。
2)Semantics Merge: LMは、デモのエンコードされた表現と対応するラベルトークンをマージして、ラベルとデモの合同表現を生成する。
(3)Feature Retrieval and Copy: LMはタスクサブスペース上のクエリ表現に似た共同表現を検索し、検索した表現をクエリにコピーする。
次に、言語モデルヘッドは、これらのコピーされたラベル表現をある程度キャプチャし、予測されたラベルにデコードする。
提案した推論回路は、ICLプロセス中に観測された多くの現象を捕捉し、ICL推論プロセスの包括的で実用的な説明となる。
さらに,提案ステップの無効化によるアブレーション解析はICLの性能を著しく損なうものであり,提案回路が支配機構であることを示唆している。
さらに,提案回路と並行してICLタスクを解くバイパス機構を確認し,リストアップする。
関連論文リスト
- Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism [28.751003584429615]
大規模言語モデル(LLM)は、テキスト内学習能力に優れる。
最近の研究は、ICLに関する2つの矛盾する見解を示している。
両ビューを体系的なフレームワークに統合する2次元コーディネートシステムを提供する。
論文 参考訳(メタデータ) (2024-07-24T05:26:52Z) - Implicit In-context Learning [37.0562059811099]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。
Inlicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。
I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-05-23T14:57:52Z) - Does In-Context Learning Really Learn? Rethinking How Large Language Models Respond and Solve Tasks via In-Context Learning [41.606494950216764]
In-context Learning (ICL)は、スケールアップされた大規模言語モデル(LLM)の開発と共に強力な能力として登場した。
本稿では,ICLの全体的な性能をラベル空間,フォーマット,識別の3次元に分解する。
ICLはラベル空間とフォーマットを制御し,所望のラベル語にLLMが反応するのに役立つことを示す。
論文 参考訳(メタデータ) (2024-04-11T08:20:10Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - What Makes Good In-context Demonstrations for Code Intelligence Tasks
with LLMs? [60.668318972782295]
大規模言語モデルは、文脈内学習(ICL)の能力を示している。
ICLはタスク命令といくつかの例をデモとして使用し、次に予測を行うために言語モデルにデモを入力します。
コードに関連するタスクに対して,優れたデモを構築する方法について,体系的に検討することが重要である。
論文 参考訳(メタデータ) (2023-04-15T15:13:58Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。