論文の概要: Blink of an eye: a simple theory for feature localization in generative models
- arxiv url: http://arxiv.org/abs/2502.00921v2
- Date: Thu, 05 Jun 2025 16:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-07 10:49:29.272032
- Title: Blink of an eye: a simple theory for feature localization in generative models
- Title(参考訳): 目の点滅--生成モデルにおける特徴局在の単純な理論
- Authors: Marvin Li, Aayush Karan, Sitan Chen,
- Abstract要約: 大型の言語モデルでは、目が瞬く間に予期せぬ振る舞いを見せることができる。
この現象は自己回帰モデルに特有のものではない。
我々はこの現象を説明するための単純で統一的な理論を開発した。
- 参考スコア(独自算出の注目度): 8.252989129324988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can exhibit unexpected behavior in the blink of an eye. In a recent computer use demo, a language model switched from coding to Googling pictures of Yellowstone, and these sudden shifts in behavior have also been observed in reasoning patterns and jailbreaks. This phenomenon is not unique to autoregressive models: in diffusion models, key features of the final output are decided in narrow ``critical windows'' of the generation process. In this work we develop a simple, unifying theory to explain this phenomenon using the formalism of stochastic localization samplers. We show that it emerges generically as the generation process localizes to a sub-population of the distribution it models. While critical windows have been studied at length in diffusion models, existing theory heavily relies on strong distributional assumptions and the particulars of Gaussian diffusion. In contrast to existing work our theory (1) applies to autoregressive and diffusion models; (2) makes no distributional assumptions; (3) quantitatively improves previous bounds even when specialized to diffusions; and (4) requires basic tools and no stochastic calculus or statistical-physics-based machinery. We also identify an intriguing connection to the all-or-nothing phenomenon from statistical inference. Finally, we validate our predictions empirically for LLMs and find that critical windows often coincide with failures in problem solving for various math and reasoning benchmarks.
- Abstract(参考訳): 大型の言語モデルでは、目が瞬く間に予期せぬ振る舞いを見せることができる。
最近のコンピュータ・ユース・デモでは、言語モデルがコーディングからイエローストーンの写真に切り替えられ、これらの突然の行動の変化は推論パターンやジェイルブレイクでも観察されている。
この現象は自己回帰モデルに特有のものではなく、拡散モデルでは、最終的な出力の重要な特徴は生成過程の狭い「クリティカルウィンドウ」で決定される。
本研究は,確率的局所化サンプリング器の定式化を用いて,この現象を説明するためのシンプルで統一的な理論を開発する。
生成プロセスがモデル化した分布のサブポピュレーションにローカライズされると、一般化して現れることを示す。
臨界窓は拡散モデルにおいて長く研究されているが、既存の理論は強い分布仮定とガウス拡散の特異性に大きく依存している。
既存の研究とは対照的に、我々の理論(1)は自己回帰的・拡散的モデルに適用し、(2)分布的仮定は行わず、(3)拡散に特化しても事前の限界を定量的に改善し、(4)基本的な道具を必要とせず、確率計算や統計物理学に基づく機械も必要としない。
また,統計的推測からオール・オア・ナッシング現象への興味深い関連性も同定した。
最後に, LLMの予測を実証的に検証し, 種々の数学や推論のベンチマークにおいて, クリティカルウィンドウが問題解決の失敗とよく一致することを発見した。
関連論文リスト
- Generalization through variance: how noise shapes inductive biases in diffusion models [0.0]
我々は「分散による一般化」現象を部分的に説明できる数学的理論を開発した。
分布拡散モデルでは, トレーニング分布に類似したサンプルを効果的に学習する。
また、この帰納バイアスが特徴に関連した帰納バイアスとどのように相互作用するかを特徴付ける。
論文 参考訳(メタデータ) (2025-04-16T23:41:10Z) - Critical Iterative Denoising: A Discrete Generative Model Applied to Graphs [52.50288418639075]
本稿では, 個別拡散を単純化し, 時間とともに条件付き独立性を仮定することで問題を回避できる, イテレーティブ・デノナイジング(Iterative Denoising)という新しい枠組みを提案する。
実験により,提案手法はグラフ生成タスクにおいて既存の離散拡散ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-03-27T15:08:58Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
離散拡散過程を補間する一般族の理論的バックボーンを導出する。
GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - One-for-More: Continual Diffusion Model for Anomaly Detection [61.12622458367425]
異常検出法は拡散モデルを用いて任意の異常画像が与えられたときの正常サンプルの生成または再構成を行う。
われわれは,拡散モデルが「重度忠実幻覚」と「破滅的な忘れ」に悩まされていることを発見した。
本研究では,安定な連続学習を実現するために勾配予測を用いた連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-27T07:47:27Z) - Unveil Conditional Diffusion Models with Classifier-free Guidance: A Sharp Statistical Theory [87.00653989457834]
条件付き拡散モデルは現代の画像合成の基礎となり、計算生物学や強化学習などの分野に広く応用されている。
経験的成功にもかかわらず、条件拡散モデルの理論はほとんど欠落している。
本稿では,条件拡散モデルを用いた分布推定の急激な統計的理論を提示することにより,ギャップを埋める。
論文 参考訳(メタデータ) (2024-03-18T17:08:24Z) - On the Generalization Properties of Diffusion Models [33.93850788633184]
この研究は拡散モデルの一般化特性を包括的に理論的に探求することを目的としている。
我々は、スコアベース拡散モデルのトレーニング力学と合わせて、タンデムで進化する一般化ギャップの理論的推定値を確立する。
我々は定量分析をデータ依存のシナリオに拡張し、対象の分布を密度の連続として表現する。
論文 参考訳(メタデータ) (2023-11-03T09:20:20Z) - Causal Modeling with Stationary Diffusions [89.94899196106223]
定常密度が干渉下でのシステムの挙動をモデル化する微分方程式を学習する。
古典的アプローチよりもよく、変数に対する見当たらない介入を一般化することを示します。
提案手法は,再生カーネルヒルベルト空間における拡散発生器の定常状態を表す新しい理論結果に基づく。
論文 参考訳(メタデータ) (2023-10-26T14:01:17Z) - Renormalizing Diffusion Models [0.7252027234425334]
拡散モデルを用いて、統計および量子場理論の逆再正規化群フローを学習する。
我々の研究は、多スケール拡散モデルの解釈を提供し、新しい性質を持つべき拡散モデルに対する物理的に着想を得た提案を与える。
論文 参考訳(メタデータ) (2023-08-23T18:02:31Z) - On Error Propagation of Diffusion Models [77.91480554418048]
DMのアーキテクチャにおける誤り伝播を数学的に定式化するための理論的枠組みを開発する。
累積誤差を正規化項として適用して誤差伝搬を低減する。
提案した正規化はエラーの伝播を低減し,バニラDMを大幅に改善し,以前のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-08-09T15:31:17Z) - Information-Theoretic Diffusion [18.356162596599436]
拡散モデルのデノイングは密度モデリングや画像生成において大きな進歩をもたらした。
情報理論における古典的な結果にインスパイアされた拡散モデルのための新しい数学的基礎を導入する。
論文 参考訳(メタデータ) (2023-02-07T23:03:07Z) - Why do classifier accuracies show linear trends under distribution
shift? [58.40438263312526]
あるデータ分布上のモデルの精度は、別の分布上の精度のほぼ線形関数である。
2つのモデルが予測で一致する確率は、精度レベルだけで推測できるものよりも高いと仮定します。
分布シフトの大きさが大きければ, 2 つの分布のモデルを評価する場合, 線形傾向が生じなければならない。
論文 参考訳(メタデータ) (2020-12-31T07:24:30Z) - Generalization and Memorization: The Bias Potential Model [9.975163460952045]
生成モデルと密度推定器は、関数の学習モデルとは全く異なる振る舞いをする。
バイアスポテンシャルモデルでは、早期停止が採用された場合、次元非依存の一般化精度が達成可能であることを示す。
長期的には、モデルはサンプルを記憶するか、分岐させる。
論文 参考訳(メタデータ) (2020-11-29T04:04:54Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。