論文の概要: From Compression to Expansion: A Layerwise Analysis of In-Context Learning
- arxiv url: http://arxiv.org/abs/2505.17322v1
- Date: Thu, 22 May 2025 22:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.716598
- Title: From Compression to Expansion: A Layerwise Analysis of In-Context Learning
- Title(参考訳): 圧縮から拡張へ:インテクスト学習の階層的分析
- Authors: Jiachen Jiang, Yuxin Dong, Jinxin Zhou, Zhihui Zhu,
- Abstract要約: In-context Learning (ICL)は、大規模な言語モデルで、デモシーケンスから学習することで、重み付けなしで新しいタスクに適応することができる。
ICL表現の統計的幾何学的解析を行い,各層にまたがるタスク固有情報の取得方法について検討する。
この結果から,ILC の階層的ダイナミックな構造的表現が LLM 内でどのように現れるかが明らかとなり,内部表現の分析がモデル行動のより深い理解を促進することが示唆された。
- 参考スコア(独自算出の注目度): 20.64102133977965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) enables large language models (LLMs) to adapt to new tasks without weight updates by learning from demonstration sequences. While ICL shows strong empirical performance, its internal representational mechanisms are not yet well understood. In this work, we conduct a statistical geometric analysis of ICL representations to investigate how task-specific information is captured across layers. Our analysis reveals an intriguing phenomenon, which we term *Layerwise Compression-Expansion*: early layers progressively produce compact and discriminative representations that encode task information from the input demonstrations, while later layers expand these representations to incorporate the query and generate the prediction. This phenomenon is observed consistently across diverse tasks and a range of contemporary LLM architectures. We demonstrate that it has important implications for ICL performance -- improving with model size and the number of demonstrations -- and for robustness in the presence of noisy examples. To further understand the effect of the compact task representation, we propose a bias-variance decomposition and provide a theoretical analysis showing how attention mechanisms contribute to reducing both variance and bias, thereby enhancing performance as the number of demonstrations increases. Our findings reveal an intriguing layerwise dynamic in ICL, highlight how structured representations emerge within LLMs, and showcase that analyzing internal representations can facilitate a deeper understanding of model behavior.
- Abstract(参考訳): In-context Learning (ICL)は、大規模言語モデル(LLM)がデモシーケンスから学習することで、重み付けなしで新しいタスクに適応できるようにする。
ICLは強い経験的性能を示すが、その内部表現機構はまだよく理解されていない。
本研究では,ICL表現の統計的幾何学的解析を行い,階層間におけるタスク固有情報の取得方法について検討する。
初期層は、入力されたデモンストレーションからタスク情報をエンコードするコンパクトかつ差別的な表現を徐々に生成し、その後層はこれらの表現を拡張してクエリを組み込んで予測を生成する。
この現象は、様々なタスクや様々な現代のLLMアーキテクチャで一貫して観察されている。
ICLのパフォーマンス -- モデルのサイズとデモの数の改善 -- と、ノイズの多い例の存在下での堅牢性に重要な意味があることを実証します。
コンパクトなタスク表現の効果をさらに理解するために、偏差分解法を提案し、注意機構が分散と偏差の両方を減らし、実演数が増えるにつれて性能を向上することを示す理論的解析法を提案する。
この結果から,ILC の階層的ダイナミックな構造的表現が LLM 内でどのように現れるかが明らかとなり,内部表現の分析がモデル行動のより深い理解を促進することが示唆された。
関連論文リスト
- Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [48.67380502157004]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。
この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文 参考訳(メタデータ) (2025-05-16T08:50:42Z) - Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。
CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文 参考訳(メタデータ) (2024-10-16T18:10:50Z) - Scaling In-Context Demonstrations with Structured Attention [75.41845145597875]
我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。
In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。
SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2023-07-05T23:26:01Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。