論文の概要: Transformer Injectivity & Geometric Robustness - Analytic Margins and Bi-Lipschitz Uniformity of Sequence-Level Hidden States
- arxiv url: http://arxiv.org/abs/2511.14808v1
- Date: Mon, 17 Nov 2025 19:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.473582
- Title: Transformer Injectivity & Geometric Robustness - Analytic Margins and Bi-Lipschitz Uniformity of Sequence-Level Hidden States
- Title(参考訳): 変圧器のインジェクティビティと幾何学的ロバストネス -解析マージンとシーエンスレベル隠れ状態のBi-Lipschitz均一性-
- Authors: Mikael von Strauss,
- Abstract要約: 離散的プロンプトから終点隠れ状態への写像は、有限プロンプト集合に対して一般射影的であることを示す。
本研究では, 層間, シーケンス長, モデルスケール, 8ビットおよび4ビットのアクティベーション量子化について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Under real-analytic assumptions on decoder-only Transformers, recent work shows that the map from discrete prompts to last-token hidden states is generically injective on finite prompt sets. We refine this picture: for each layer $\ell$ we define a collision discriminant $Δ^\ell \subset Θ$ and injective stratum $U^\ell = Θ\setminus Δ^\ell$, and prove a dichotomy -- either the model is nowhere injective on the set, or $U^\ell$ is open and dense and every $F^\ell_θ$ is injective. Under mild non-singularity assumptions on the optimizer and an absolutely continuous initialization, generic injectivity persists along smooth training trajectories over any fixed horizon. We also treat symmetry groups $G$, showing that discriminants and injective strata descend to the quotient $Θ/G$, so injectivity is naturally a property of functional equivalence classes. We complement these results with an empirical study of layerwise geometric diagnostics. We define a separation margin and a co-Lipschitz (lower Lipschitz) constant between prompt space and last-token representation space, estimated via nearest-neighbor statistics on large prompt sets. Applying these diagnostics to pretrained LLaMA-3 and Qwen models, we study behavior across layers, sequence lengths, model scales, and 8- and 4-bit activation quantization. On our sampled prompts we see no collisions in full precision or at 8 bits, while 4-bit quantization induces a small number of collisions and markedly shrinks co-Lipschitz estimates. For a small GPT-2 trained from scratch, normalized metrics remain stable over training. Overall, the results suggest that Transformer representations are generically and persistently injective in the continuous-parameter idealization, while their practical invertibility can be probed using simple geometric diagnostics.
- Abstract(参考訳): デコーダのみのトランスフォーマーに関する実解析的な仮定の下で、最近の研究は、離散的なプロンプトから最後の隠れ状態への写像が有限プロンプト集合に対して一般射影的であることを示している。
それぞれの層に対して、$\ell$ は衝突判別式 $Δ^\ell \subset >$ と injective stratum $U^\ell = >\setminus Δ^\ell$ を定義し、二分法を証明する。
最適化器上の穏やかな非特異性仮定と絶対連続な初期化の下では、ジェネリック・インジェクティビティは任意の固定地平線上の滑らかな訓練軌道に沿って持続する。
また、対称群 $G$ も扱い、判別式と射影層が商 $ s/G$ に下降することを示すので、単射性は自然に関数同値類の性質である。
これらの結果を,層状幾何学的診断の実証的研究で補完する。
我々は、大きなプロンプト集合上の最も近い近傍統計量から推定される、プロンプト空間と最後のトーケン表現空間の間の分離マージンとコ・リプシッツ(より低いリプシッツ)定数を定義する。
これらの診断を事前訓練したLLaMA-3およびQwenモデルに適用し、層、配列長、モデルスケール、および8ビットおよび4ビットのアクティベーション量子化について検討する。
サンプル化されたプロンプトでは、完全な精度や8ビットの衝突は見られず、4ビットの量子化は少数の衝突を誘発し、コ・リプシッツ推定を著しく縮小する。
スクラッチからトレーニングされた小さなGPT-2では、正規化メトリクスはトレーニング中に安定している。
その結果,Transformer表現は連続パラメータの理想化において汎用的かつ永続的に注入され,その実用的可逆性は単純な幾何学的診断法を用いて探究可能であることが示唆された。
関連論文リスト
- Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Singular Bayesian Neural Networks [1.2891210250935148]
ベイズニューラルネットワークはキャリブレーションされた不確かさを約束するが、標準平均体ガウス後方に対する$O(mn)$パラメータを必要とする。
我々は、ルベーグ測度に関して特異な後部を誘導し、ランク-$r$多様体に集中する。
複素項が $sqrtr(m+n)$ ではなく $sqrtm n$ としてスケールするPAC-Bayes 一般化境界を導出し、誤差を最適化とランク誘導バイアスに分解する損失境界を証明する。
論文 参考訳(メタデータ) (2026-01-30T23:06:34Z) - Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Symmetry-Breaking Descent for Invariant Cost Functionals [0.0]
タスクコストの関数的$W : Hs(M) を mathbbR$ に還元する問題について検討する。
信号の対称性を破る変形はコストを低減できることを示す。
論文 参考訳(メタデータ) (2025-05-19T15:06:31Z) - Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。
平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文 参考訳(メタデータ) (2025-04-28T16:58:55Z) - Criteria and Bias of Parameterized Linear Regression under Edge of Stability Regime [38.134523847923646]
安定性のエッジ(Edge of stability、EoS)は通常、安定性のエッジ(Edge of stability、EoS)と呼ばれる。
適切な条件下では、$l$ が二次的であっても EoS が成立することを示す。
また、より大きなステップサイズを採用すると、対角線ネットワークの暗黙のバイアスに新たな光を当てた。
論文 参考訳(メタデータ) (2024-12-11T02:07:37Z) - Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。
また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文 参考訳(メタデータ) (2024-06-10T22:57:27Z) - MGDA Converges under Generalized Smoothness, Provably [27.87166415148172]
多目的最適化(MOO)はマルチタスク学習など様々な分野で注目を集めている。
最近の研究は、理論解析を伴う効果的なアルゴリズムを提供しているが、それらは標準の$L$-smoothあるいは有界勾配仮定によって制限されている。
一般化された$ell$-smooth損失関数のより一般的で現実的なクラスについて研究し、$ell$は勾配ノルムの一般非減少関数である。
論文 参考訳(メタデータ) (2024-05-29T18:36:59Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Practical Sharpness-Aware Minimization Cannot Converge All the Way to
Optima [14.141453107129403]
Sharpness-Aware Minimization (SAM) は、$y_t = x_t + rho fracbla f(x_t)lt blablax_t での摂動に基づくステップを取る。
論文 参考訳(メタデータ) (2023-06-16T13:47:04Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。