Fugu-MT 論文翻訳(概要): From Compression to Expansion: A Layerwise Analysis of In-Context Learning

論文の概要: From Compression to Expansion: A Layerwise Analysis of In-Context Learning

arxiv url: http://arxiv.org/abs/2505.17322v1
Date: Thu, 22 May 2025 22:22:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.716598
Title: From Compression to Expansion: A Layerwise Analysis of In-Context Learning
Title（参考訳）: 圧縮から拡張へ:インテクスト学習の階層的分析
Authors: Jiachen Jiang, Yuxin Dong, Jinxin Zhou, Zhihui Zhu,
Abstract要約: In-context Learning (ICL)は、大規模な言語モデルで、デモシーケンスから学習することで、重み付けなしで新しいタスクに適応することができる。 ICL表現の統計的幾何学的解析を行い,各層にまたがるタスク固有情報の取得方法について検討する。この結果から,ILC の階層的ダイナミックな構造的表現が LLM 内でどのように現れるかが明らかとなり,内部表現の分析がモデル行動のより深い理解を促進することが示唆された。
参考スコア（独自算出の注目度）: 20.64102133977965
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-context learning (ICL) enables large language models (LLMs) to adapt to new tasks without weight updates by learning from demonstration sequences. While ICL shows strong empirical performance, its internal representational mechanisms are not yet well understood. In this work, we conduct a statistical geometric analysis of ICL representations to investigate how task-specific information is captured across layers. Our analysis reveals an intriguing phenomenon, which we term *Layerwise Compression-Expansion*: early layers progressively produce compact and discriminative representations that encode task information from the input demonstrations, while later layers expand these representations to incorporate the query and generate the prediction. This phenomenon is observed consistently across diverse tasks and a range of contemporary LLM architectures. We demonstrate that it has important implications for ICL performance -- improving with model size and the number of demonstrations -- and for robustness in the presence of noisy examples. To further understand the effect of the compact task representation, we propose a bias-variance decomposition and provide a theoretical analysis showing how attention mechanisms contribute to reducing both variance and bias, thereby enhancing performance as the number of demonstrations increases. Our findings reveal an intriguing layerwise dynamic in ICL, highlight how structured representations emerge within LLMs, and showcase that analyzing internal representations can facilitate a deeper understanding of model behavior.
Abstract（参考訳）: In-context Learning (ICL)は、大規模言語モデル(LLM)がデモシーケンスから学習することで、重み付けなしで新しいタスクに適応できるようにする。 ICLは強い経験的性能を示すが、その内部表現機構はまだよく理解されていない。本研究では,ICL表現の統計的幾何学的解析を行い,階層間におけるタスク固有情報の取得方法について検討する。初期層は、入力されたデモンストレーションからタスク情報をエンコードするコンパクトかつ差別的な表現を徐々に生成し、その後層はこれらの表現を拡張してクエリを組み込んで予測を生成する。この現象は、様々なタスクや様々な現代のLLMアーキテクチャで一貫して観察されている。 ICLのパフォーマンス -- モデルのサイズとデモの数の改善 -- と、ノイズの多い例の存在下での堅牢性に重要な意味があることを実証します。コンパクトなタスク表現の効果をさらに理解するために、偏差分解法を提案し、注意機構が分散と偏差の両方を減らし、実演数が増えるにつれて性能を向上することを示す理論的解析法を提案する。この結果から,ILC の階層的ダイナミックな構造的表現が LLM 内でどのように現れるかが明らかとなり,内部表現の分析がモデル行動のより深い理解を促進することが示唆された。

関連論文リスト

Provable Low-Frequency Bias of In-Context Learning of Representations [19.066378730056275]
In-context Learning (ICL) は、大きな言語モデル(LLM)がパラメータを更新せずに入力シーケンスから新しい振る舞いを取得することを可能にする。近年の研究では、ICLはプロンプトのデータ生成過程(DGP)の構造を内部化することにより、事前学習の段階で学んだ本来の意味を超えることができることが示されている。本稿では、二重収束の統一的な枠組みを導入することにより、このような現象を初めて厳密に説明する。この二重収束過程は、スムーズな(低周波)表現に対する暗黙のバイアスをもたらし、解析的に証明し、経験的に検証する。
論文参考訳（メタデータ） (2025-07-17T21:19:32Z)
Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [48.67380502157004]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文参考訳（メタデータ） (2025-05-16T08:50:42Z)
Does Representation Matter? Exploring Intermediate Layers in Large Language Models [22.704926222438456]
大規模言語モデル(LLM)における中間表現の品質について検討する。中間層は、最終層よりも下流のタスクに対してより情報的な表現をもたらすことがよくあります。本研究は,LLMの内部力学とアーキテクチャ最適化とトレーニングのためのガイド戦略を照らしたものである。
論文参考訳（メタデータ） (2024-12-12T18:48:51Z)
Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。 CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文参考訳（メタデータ） (2024-10-16T18:10:50Z)
DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。 ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文参考訳（メタデータ） (2024-05-22T15:52:52Z)
Decoding In-Context Learning: Neuroscience-inspired Analysis of Representations in Large Language Models [5.062236259068678]
In-context Learning (ICL) による大規模言語モデル(LLM)の性能向上について検討する。本稿では,Llama-270BとVicuna 13Bのパラメータ化探索と,関連する情報と無関係情報に対する注意度の測定方法を提案する。 ICL後の行動改善とLLM層間の埋め込みと注意重みの変化との間に有意な相関が認められた。
論文参考訳（メタデータ） (2023-09-30T09:01:35Z)
Scaling In-Context Demonstrations with Structured Attention [75.41845145597875]
我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。 In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。 SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
論文参考訳（メタデータ） (2023-07-05T23:26:01Z)
Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する本稿では,情報フローレンズを用いたICLの動作機構について検討する。本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T15:26:20Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文参考訳（メタデータ） (2023-05-06T03:57:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。