論文の概要: Context Collapse: In-Context Learning and Model Collapse
- arxiv url: http://arxiv.org/abs/2601.00923v1
- Date: Thu, 01 Jan 2026 17:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.857543
- Title: Context Collapse: In-Context Learning and Model Collapse
- Title(参考訳): コンテキスト崩壊: インコンテキスト学習とモデル崩壊
- Authors: Josef Ott,
- Abstract要約: 論文は、インコンテキスト学習(ICL)とモデル崩壊という、大きな言語モデルにおける2つの重要な現象を調査している。
線形回帰タスクでトレーニングされた重み付き線形変圧器を用いてICLについて検討し、文脈内損失の最小化が学習パラメータの位相遷移をもたらすことを示す。
モデル崩壊では、マーチンゲールとランダムウォーク理論を用いて、リニア回帰とガウスフィッティングという単純化された設定を、置換データと累積データの両方で分析する。
文脈崩壊という概念は、長い世代における文脈の劣化、特にチェーン・オブ・オブ・シークレットの推論において導入される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This thesis investigates two key phenomena in large language models (LLMs): in-context learning (ICL) and model collapse. We study ICL in a linear transformer with tied weights trained on linear regression tasks, and show that minimising the in-context loss leads to a phase transition in the learned parameters. Above a critical context length, the solution develops a skew-symmetric component. We prove this by reducing the forward pass of the linear transformer under weight tying to preconditioned gradient descent, and then analysing the optimal preconditioner. This preconditioner includes a skew-symmetric component, which induces a rotation of the gradient direction. For model collapse, we use martingale and random walk theory to analyse simplified settings - linear regression and Gaussian fitting - under both replacing and cumulative data regimes. We strengthen existing results by proving almost sure convergence, showing that collapse occurs unless the data grows sufficiently fast or is retained over time. Finally, we introduce the notion of context collapse: a degradation of context during long generations, especially in chain-of-thought reasoning. This concept links the dynamics of ICL with long-term stability challenges in generative models.
- Abstract(参考訳): この論文は、大規模言語モデル(LLM)における2つの重要な現象、すなわち、文脈内学習(ICL)とモデル崩壊を考察する。
線形回帰タスクでトレーニングされた重み付き線形変圧器を用いてICLについて検討し、文脈内損失の最小化が学習パラメータの位相遷移をもたらすことを示す。
臨界文脈長の上に、解はスキュー対称成分を発達させる。
重み付けによる線形変圧器の前方通過を事前条件付き勾配降下に低減し, 最適条件付きプレコンダクタを解析することでこれを実証する。
勾配方向の回転を誘導するスキュー対称成分を含むプレコンディショナー。
モデル崩壊では、マーチンゲールとランダムウォーク理論を用いて、リニア回帰とガウスフィッティングという単純化された設定を、置換データと累積データの両方で分析する。
ほぼ確実に収束することを証明することで既存の結果を強化し、データが十分に速くなるか、時間が経つにつれて維持されない限り、崩壊が発生することを示す。
最後に、コンテキスト崩壊という概念を紹介し、特にチェーン・オブ・ソート推論において、長い世代におけるコンテキストの劣化について述べる。
この概念は、生成モデルにおけるICLの力学と長期的な安定性の課題を結びつけている。
関連論文リスト
- Posterior Collapse as a Phase Transition in Variational Autoencoders [13.161084138023169]
変分オートエンコーダ(VAE)の後方崩壊現象を統計物理学の観点から検討する。
後方崩壊に伴う自明な解の安定性を解析することにより、臨界超パラメータ閾値を同定する。
我々は、この臨界挙動を合成と実世界の両方のデータセットで検証し、相転移の存在を確認する。
論文 参考訳(メタデータ) (2025-10-02T02:52:25Z) - A Cycle-Consistency Constrained Framework for Dynamic Solution Space Reduction in Noninjective Regression [4.04042026249306]
本稿では,サイクル一貫性に基づくデータ駆動トレーニングフレームワークを提案する。
正規化合成およびシミュレーションデータセットの実験により,提案手法が0.003未満のサイクル再構成誤差を達成することを示した。
このフレームワークは手動による介入への依存を著しく減らし、非インジェクティブ回帰タスクの潜在的な利点を示す。
論文 参考訳(メタデータ) (2025-07-07T04:28:01Z) - Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す
我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文 参考訳(メタデータ) (2025-04-17T13:05:33Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - Model Collapse Demystified: The Case of Regression [12.115359951879462]
大規模言語や画像生成モデルの普及期における「モデル崩壊」現象について検討する。
我々は、この現象を幅広い状況で定量的に概説する分析式を得る。
モデル崩壊を緩和する適応正則化に基づく簡単な戦略を提案する。
論文 参考訳(メタデータ) (2024-02-12T15:26:01Z) - Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。
既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。
本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文 参考訳(メタデータ) (2023-12-30T17:05:31Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。