論文の概要: Provable Low-Frequency Bias of In-Context Learning of Representations
- arxiv url: http://arxiv.org/abs/2507.13540v2
- Date: Wed, 30 Jul 2025 01:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:51.35985
- Title: Provable Low-Frequency Bias of In-Context Learning of Representations
- Title(参考訳): 表現の文脈内学習における確率的低周波バイアス
- Authors: Yongyi Yang, Hidenori Tanaka, Wei Hu,
- Abstract要約: In-context Learning (ICL) は、大きな言語モデル(LLM)がパラメータを更新せずに入力シーケンスから新しい振る舞いを取得することを可能にする。
近年の研究では、ICLはプロンプトのデータ生成過程(DGP)の構造を内部化することにより、事前学習の段階で学んだ本来の意味を超えることができることが示されている。
本稿では、二重収束の統一的な枠組みを導入することにより、このような現象を初めて厳密に説明する。
この二重収束過程は、スムーズな(低周波)表現に対する暗黙のバイアスをもたらし、解析的に証明し、経験的に検証する。
- 参考スコア(独自算出の注目度): 19.066378730056275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) enables large language models (LLMs) to acquire new behaviors from the input sequence alone without any parameter updates. Recent studies have shown that ICL can surpass the original meaning learned in pretraining stage through internalizing the structure the data-generating process (DGP) of the prompt into the hidden representations. However, the mechanisms by which LLMs achieve this ability is left open. In this paper, we present the first rigorous explanation of such phenomena by introducing a unified framework of double convergence, where hidden representations converge both over context and across layers. This double convergence process leads to an implicit bias towards smooth (low-frequency) representations, which we prove analytically and verify empirically. Our theory explains several open empirical observations, including why learned representations exhibit globally structured but locally distorted geometry, and why their total energy decays without vanishing. Moreover, our theory predicts that ICL has an intrinsic robustness towards high-frequency noise, which we empirically confirm. These results provide new insights into the underlying mechanisms of ICL, and a theoretical foundation to study it that hopefully extends to more general data distributions and settings.
- Abstract(参考訳): In-context Learning (ICL) は、大きな言語モデル(LLM)がパラメータを更新せずに入力シーケンスから新しい振る舞いを取得することを可能にする。
近年の研究では、ICLはプロンプトのデータ生成過程(DGP)の構造を内部化することにより、事前学習の段階で学んだ本来の意味を超えることができることが示されている。
しかし、LSMがこの能力を達成するメカニズムは未解決のままである。
本稿では,2重収束の統一的枠組みを導入することで,このような現象の厳密な説明を行う。
この二重収束過程は、スムーズな(低周波)表現に対する暗黙のバイアスをもたらし、解析的に証明し、経験的に検証する。
私たちの理論は、学習された表現がグローバルに構造化されているが局所的に歪んだ幾何学を示す理由や、その全エネルギーが消滅せずに崩壊する理由など、いくつかのオープンな経験的な観察を説明している。
さらに、本理論は、ICLが高周波雑音に対して本質的な頑健性を持っていることを予測し、それを実証的に確認する。
これらの結果は、ICLの基盤となるメカニズムに関する新たな洞察を与え、より一般的なデータ分布や設定にまで拡張することが望まれる理論的な基礎となる。
関連論文リスト
- Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。
OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。
我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-06-12T16:50:45Z) - How does Transformer Learn Implicit Reasoning? [41.315116538534106]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - From Compression to Expansion: A Layerwise Analysis of In-Context Learning [20.64102133977965]
In-context Learning (ICL)は、大規模な言語モデルで、デモシーケンスから学習することで、重み付けなしで新しいタスクに適応することができる。
ICL表現の統計的幾何学的解析を行い,各層にまたがるタスク固有情報の取得方法について検討する。
この結果から,ILC の階層的ダイナミックな構造的表現が LLM 内でどのように現れるかが明らかとなり,内部表現の分析がモデル行動のより深い理解を促進することが示唆された。
論文 参考訳(メタデータ) (2025-05-22T22:22:03Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。
CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。
パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Class-wise Activation Unravelling the Engima of Deep Double Descent [0.0]
二重降下は、機械学習領域内の反直観的な側面を示す。
本研究では,二重降下現象を再考し,その発生状況について考察した。
論文 参考訳(メタデータ) (2024-05-13T12:07:48Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文 参考訳(メタデータ) (2023-03-14T15:24:05Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。