論文の概要: The Laplacian Mechanism Improves Transformers by Reshaping Token Geometry
- arxiv url: http://arxiv.org/abs/2602.09297v1
- Date: Tue, 10 Feb 2026 00:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.295772
- Title: The Laplacian Mechanism Improves Transformers by Reshaping Token Geometry
- Title(参考訳): ラプラシアン機構はトーケン幾何を変形させることにより変圧器を改善する
- Authors: Yuchong Zhang, Vardan Papyan,
- Abstract要約: ラプラシアン機構をトランスフォーマーに組み込むことで、コンピュータビジョンと言語におけるベンチマーク間で一貫した改善がもたらされることを示す。
本研究は,ラプラシアン機構が最大分離性の幾何へのトークン埋め込みを再現することを示す。
- 参考スコア(独自算出の注目度): 15.311893064721856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers leverage attention, the residual connection, and layer normalization to control the variance of token representations. We propose to modify attention into a Laplacian mechanism that gives the model more direct control over token variance. We conjecture that this helps transformers achieve the ideal token geometry. To investigate our conjecture, we first show that incorporating the Laplacian mechanism into transformers induces consistent improvements across benchmarks in computer vision and language. Next, we study how the Laplacian mechanism impacts the geometry of token representations using various tools: 1) principal component analysis, 2) cosine similarity metric, 3) analysis of variance, and 4) Neural Collapse metrics. Our investigation shows that the Laplacian mechanism reshapes token embeddings toward a geometry of maximal separability: tokens collapse according to their classes, and the class means exhibit Neural Collapse.
- Abstract(参考訳): トランスフォーマーは、トークン表現の分散を制御するために注意、残差接続、層正規化を利用する。
我々は,トークンの分散をより直接的に制御するラプラシアン機構に注意を向けることを提案する。
これはトランスフォーマーが理想的なトークン幾何学を達成するのに役立つと推測する。
まず,ラプラシアン機構をトランスフォーマーに組み込むことで,コンピュータビジョンと言語におけるベンチマーク間で一貫した改善がもたらされることを示す。
次に,ラプラシアン機構が様々なツールを用いてトークン表現の幾何学にどのように影響するかを検討する。
1)主成分分析
2)コサイン類似度尺度
3)分散の分析,及び
4) 神経崩壊の指標。
本研究により,Laplacian の機構は,最大分離性の幾何へのトークン埋め込みを想起させることが明らかとなった。
関連論文リスト
- Selective Induction Heads: How Transformers Select Causal Structures In Context [50.09964990342878]
因果構造を扱うトランスフォーマーの能力を示す新しいフレームワークを提案する。
我々のフレームワークは、遷移確率を固定しつつ、ラグの異なるマルコフ鎖をインターリーブすることで因果構造を変化させる。
この設定は、コンテクスト内で正しい因果構造を選択できる新しい回路である選択誘導ヘッド(Selective induction Heads)を形成する。
論文 参考訳(メタデータ) (2025-09-09T23:13:41Z) - Plain Transformers Can be Powerful Graph Learners [64.50059165186701]
研究者たちは、Transformerをグラフ学習に移行しようとしたが、ほとんどの高度なGraph Transformerは、普通のTransformerから遠く離れている。
この研究は、普通のTransformerアーキテクチャが強力なグラフ学習者になれることを示した。
論文 参考訳(メタデータ) (2025-04-17T02:06:50Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision Transformer [16.97186100288621]
視覚変換器は、領域を変換トークンとして表現し、注意重みを通してそれらを統合することによって視覚情報を抽出する。
既存のポストホックな説明法は単にこれらの注意重みを考慮し、変換されたトークンから重要な情報を無視するだけである。
本稿では,トークン変換効果の測定を利用したポストホックな説明手法であるTokenTMを提案する。
論文 参考訳(メタデータ) (2024-03-21T16:52:27Z) - Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling [10.246977481606427]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。
本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文 参考訳(メタデータ) (2024-02-01T11:43:13Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。