論文の概要: Stream separation improves Bregman conditioning in transformers
- arxiv url: http://arxiv.org/abs/2603.21317v1
- Date: Sun, 22 Mar 2026 16:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.351597
- Title: Stream separation improves Bregman conditioning in transformers
- Title(参考訳): ストリーム分離による変圧器のブレグマン条件の改善
- Authors: James Clayton Kerce,
- Abstract要約: 変換器表現を操る線形手法は、表現空間の幾何学がユークリッド的であることを暗黙的に仮定する。
Park et al. は、ソフトマックスは、計量テンソルが対数正規化子のヘシアンである曲線化されたブレグマン幾何学を誘導することを示した。
制御された2x2設計ストリーム分離における中間層におけるこのヘシアンを層間監視により測定する。
- 参考スコア(独自算出の注目度): 4.7718339202518685
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Linear methods for steering transformer representations, including probing, activation engineering, and concept erasure, implicitly assume the geometry of representation space is Euclidean. Park et al. [Park et al., 2026] showed that softmax induces a curved Bregman geometry whose metric tensor is the Hessian of the log-normalizer, $H(λ) = Cov[γ | λ]$. Ignoring this curvature causes Euclidean steering to leak probability mass to unintended tokens. Their analysis applies at the output layer. We measure this Hessian at intermediate layers in a controlled 2x2 design crossing stream separation with per-layer supervision (vocabulary decoding loss at each layer), all at matched vocabulary and parameter count. In standard single-stream transformers, H is severely degenerate at intermediate layers (effective rank 8 in 516 dimensions). Stream separation improves conditioning by up to 22 in effective rank, even without auxiliary supervision. Per-layer supervision helps, but less. The cosine similarity between primal and dual concept directions predicts per-layer steering effectiveness on downstream tasks, with a threshold near 0.3. These results bear on the reliability of linear safety interventions, which depend on the geometry being well-conditioned at the layer where they are applied.
- Abstract(参考訳): 探索、アクティベーションエンジニアリング、概念消去を含む変換器表現を操る線形手法は、表現空間の幾何学をユークリッドと暗黙的に仮定する。
Park et al [Park et al , 2026] は、ソフトマックスが、計量テンソルが対数正規化子のヘシアンである曲線化されたブレグマン幾何学を誘導することを示した。
この曲率を無視すると、ユークリッドの操舵は意図しないトークンに確率質量を漏らす。
それらの分析は出力層に適用される。
制御された2x2設計ストリーム分離において,このヘシアンを中間層で測定し,各層における語彙復号損失)、すべて一致する語彙とパラメータ数で測定する。
標準単流変圧器では、Hは中間層(有効ランク8は516次元)で著しく縮退する。
ストリーム分離は、補助的な監督なしでも、効果的なランクで22までの条件付けを改善する。
レイヤ単位の監視は役に立つが、少ない。
原始方向と双対方向のコサイン類似性は、下流タスクにおける層間ステアリング効果を0.3付近で予測する。
これらの結果は、線形安全介入の信頼性にかかっている。
関連論文リスト
- Residual Stream Duality in Modern Transformer Architectures [9.910562011343009]
最近の研究により、残留経路は単なる最適化配管ではなく、モデルの表現機械の一部であることが明らかになった。
このデザイン空間を整理する最もクリーンな方法は、Transformerの2軸ビューである、と私たちは主張する。
論文 参考訳(メタデータ) (2026-03-17T00:56:29Z) - Latent attention on masked patches for flow reconstruction [8.69419238669827]
本稿では,マスクフロー再構成のためのレグレッションベースの修正視覚変換器であるLAMPモデルについて紹介する。
その結果,LAMPは10dBから30dBの信号対雑音比で90%の入力から全流れ場を正確に再構成することがわかった。
論文 参考訳(メタデータ) (2026-03-02T16:12:40Z) - Gated Removal of Normalization in Transformers Enables Stable Training and Efficient Inference [2.1665689529884697]
RMSNorm/LayerNormをドロップインで置き換えたTaperNormを紹介します。
1つのグローバルゲートは、ゲートウォームアップ中に$g=1$で保持され、EMAを介してスケーリングブランチをキャリブレーションし、コサインデケイを$g=0$にする。
マイクロベンチマークでは、折りたたみ内部のスケーリングは、ラスト・トーケン・ロジット・モードで最大1.22倍のスループットを得る。
論文 参考訳(メタデータ) (2026-02-11T01:40:34Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - Orthogonalizing Convolutional Layers with the Cayley Transform [83.73855414030646]
直交に制約された畳み込み層をパラメータ化するための代替手法を提案し,評価する。
本手法は,大規模畳み込みにおいても直交性が高次に保たれることを示す。
論文 参考訳(メタデータ) (2021-04-14T23:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。