論文の概要: Analogies between Transformer Layers and Power Method
- arxiv url: http://arxiv.org/abs/2605.25619v1
- Date: Mon, 25 May 2026 09:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.54527
- Title: Analogies between Transformer Layers and Power Method
- Title(参考訳): 変圧器層と電力方法のアナロジー
- Authors: Chenglong Li, Claudio Altafini,
- Abstract要約: 層を通過すると、トークンは行列の主固有ベクトルに向かって傾く傾向にあることを示す。
アナログはまた、トークン空間における任意の所望方向に向けて変換器の出力を操る方法も提案している。
- 参考スコア(独自算出の注目度): 8.581093848894431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the paper we show that there is an analogy between the operations occurring in a layer of a transformer (projections and layer normalizations, disregarding the feedforward neural network) and a step in the power method. Coherently with this analogy, we show that passing through a layer the tokens tend to be tilted towards the principal eigenvector of a matrix which is the product of the output and value weight matrices of that layer. In the special case of a transformer with shared weights (i.e., in which all layers have identical weights) then the alignment with this principal eigenvector is particularly evident empirically, and can also be shown analytically. The analogy also suggests a method to steer the output of the transformer towards an arbitrary desired direction in token space.
- Abstract(参考訳): 本稿では,変圧器の層に発生する動作(投射と層正規化,フィードフォワードニューラルネットワークの無視)と電力法のステップとの間には類似性が存在することを示す。
この類似性から、トークンが層を通過すると、その層の出力と値の重み行列の積である行列の主固有ベクトルに傾く傾向にあることを示す。
共有重みを持つ変圧器(すなわちすべての層が同じ重みを持つ)の特殊な場合、この主固有ベクトルとのアライメントは特に経験的に顕著であり、解析的にも示せる。
アナログはまた、トークン空間における任意の所望方向に向けて変換器の出力を操る方法も提案している。
関連論文リスト
- Transformer-like Inference from Optimal Control [0.5161531917413708]
第一原理から、同じ予測問題を解く推論アーキテクチャを導出する。
2つのモデルクラスに対して、予測目標を最適制御問題として再構成する。
実験により、埋め込み次元が不足すると、変圧器は非マルコフ構造を暗黙的に活用することが明らかになった。
論文 参考訳(メタデータ) (2026-05-15T04:42:19Z) - On Dimension-Free Transformer: An Application of STP to AI [1.9580473532948401]
次元自由変換器(DFT)の枠組みを提案する。
すべてのエントリに関するバランスの取れた情報を使用することで、DFTは信号を扱う上でより効率的でなければならない。
論文 参考訳(メタデータ) (2025-04-20T07:19:54Z) - Converting Transformers into DGNNs Form [3.7468283401703797]
ダイグラフフーリエ変換に基づく合成ユニタリグラフ畳み込みを導入する。
Converterと呼ぶ結果のモデルは、トランスフォーマーをダイレクトグラフニューラルネットワーク形式に効果的に変換する。
我々は、Long-Range Arenaベンチマーク、Long-Range Arena分類、DNAシークエンスに基づく分類でConverterを検証した。
論文 参考訳(メタデータ) (2025-02-01T22:44:46Z) - Graph Transformers Dream of Electric Flow [72.06286909236827]
グラフデータに適用された線形変換器は、正準問題を解くアルゴリズムを実装可能であることを示す。
提案手法は,各アルゴリズムを実装するための明示的な重み設定を示し,基礎となるアルゴリズムの誤差によって構築したトランスフォーマーの誤差を限定する。
我々の研究は、グラフデータのためのTransformerの内部処理を解明するための最初のステップです。
論文 参考訳(メタデータ) (2024-10-22T05:11:45Z) - Unveiling Transformer Perception by Exploring Input Manifolds [39.73051264951964]
本稿では,Transformerモデルの入力空間における等価クラス探索法を提案する。
提案手法は、トランスフォーマーアーキテクチャの内部層を入力多様体の逐次変形として記述する音響数学的理論に基づいている。
論文 参考訳(メタデータ) (2024-10-08T13:20:31Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Transformers, parallel computation, and logarithmic depth [33.659870765923884]
我々は,一定数の自己注意層が,大規模並列計算の通信ラウンドを効率よくシミュレートし,シミュレートできることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:54:55Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Leveraging redundancy in attention with Reuse Transformers [58.614198953733194]
Pairwise dot product-based attentionでは、Transformerは入力依存の方法でトークン間で情報を交換することができる。
典型的なTransformerモデルは、同じシーケンスに対してそのようなペアワイズアテンションスコアを何度も計算する。
本稿では,複数の層において1層で計算された注意点を再利用する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。