論文の概要: Symmetry Breaking in Transformers for Efficient and Interpretable Training
- arxiv url: http://arxiv.org/abs/2601.22257v1
- Date: Thu, 29 Jan 2026 19:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.027772
- Title: Symmetry Breaking in Transformers for Efficient and Interpretable Training
- Title(参考訳): 変圧器の対称性の破断
- Authors: Eva Silverstein, Daniel Kunin, Vasudev Shyam,
- Abstract要約: 我々は、バッチワイズで未学習なクエリと値バイアスを通じて、望ましい方向を回転空間に挿入する単純な対称性破れプロトコルを導入する。
第一に、単純なメモリ効率の性能を大幅に向上させることができる。
第二に、それ以外は冗長な自転自由度を解釈可能な利用を可能にする。
- 参考スコア(独自算出の注目度): 5.624886369964602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention mechanism in its standard implementation contains extraneous rotational degrees of freedom that are carried through computation but do not affect model activations or outputs. We introduce a simple symmetry-breaking protocol that inserts a preferred direction into this rotational space through batchwise-sampled, unlearned query and value biases. This modification has two theoretically motivated and empirically validated consequences. First, it can substantially improve the performance of simple, memory-efficient optimizers, narrowing -- and in some cases closing -- the gap to successful but more complex memory-intensive adaptive methods. We demonstrate this by pretraining 124M parameter transformer models with four optimization algorithms (AdamW, SOAP, SGDM, and Energy Conserving Descent(ECD)) and evaluating both validation loss and downstream logical reasoning. Second, it enables an interpretable use of otherwise redundant rotational degrees of freedom, selectively amplifying semantically meaningful token classes within individual attention heads. Overall, our results show that minimal, principled architectural changes can simultaneously improve performance and interpretability.
- Abstract(参考訳): 標準実装における注意機構は、計算によって実行されるが、モデルのアクティベーションや出力には影響しない、極端に回転する自由度を含む。
我々は、バッチワイズで未学習なクエリと値バイアスによって、望ましい方向をこの回転空間に挿入する単純な対称性破れプロトコルを導入する。
この修正は理論的には2つの動機づけられ、実証的に検証された結果をもたらす。
ひとつは、シンプルでメモリ効率のよいオプティマイザのパフォーマンスを大幅に改善し、成功しているがより複雑なメモリ集約型メソッドとのギャップを狭める -- そして、場合によっては閉じる -- ことができることです。
本研究では,4つの最適化アルゴリズム(AdamW,SOAP,SGDM,Energy Conserving Descent(ECD))を用いて,124Mパラメータトランスフォーマーモデルを事前学習し,検証損失と下流論理的推論の両方を評価する。
第二に、他の冗長な回転自由度を解釈可能な利用を可能にし、個々の注意頭の中で意味的に意味のあるトークンクラスを選択的に増幅する。
全体としては、最小限の原則によるアーキテクチャ変更は、パフォーマンスと解釈可能性を同時に改善できることを示している。
関連論文リスト
- Magnitude-Modulated Equivariant Adapter for Parameter-Efficient Fine-Tuning of Equivariant Graph Neural Networks [17.452647514694004]
MMEA(Magnitude-Modulated Equivariant Adapter)
本稿では,軽量なスカラーゲーティングを用いて,各次数および多重度に基づいて特徴量の変調を行う新しい等変微調整法を提案する。
その結果、多くの実践シナリオにおいて、チャネルの大きさの変調は、対称性を損なうことなく、新しい化学環境に同変モデルを適用するのに十分であることが示唆された。
論文 参考訳(メタデータ) (2025-11-10T04:31:56Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent [51.50999191584981]
Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートである。
我々はSignGDが雑音の多いデータセット上で2層トランスを最適化する方法について検討する。
SignGDの一般化が不十分なのはデータノイズによるものではなく、SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
論文 参考訳(メタデータ) (2024-10-07T09:36:43Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion [4.716845031095804]
トランスフォーマーモデルは、高い計算要求のため、実用的な制限に直面する可能性がある。
このようなモデルは、ネットワークの一部を等価なMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。
本研究では,基本モデルの活性化間隔を適切に正規化することにより,変換効率を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2023-10-06T16:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。