論文の概要: Krause Synchronization Transformers
- arxiv url: http://arxiv.org/abs/2602.11534v1
- Date: Thu, 12 Feb 2026 03:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.626752
- Title: Krause Synchronization Transformers
- Title(参考訳): クラウス同期変換器
- Authors: Jingkun Liu, Yisong Yue, Max Welling, Yue Song,
- Abstract要約: トランスフォーマーにおける自己注意は、グローバルに正規化されたソフトマックスの重みに依存しており、すべてのトークンがすべての層で影響を競う。
クラーズ・アテンション(Krause Attention)は、有界信頼コンセンサス・ダイナミクスにインスパイアされた注意機構である。
- 参考スコア(独自算出の注目度): 63.8469912831803
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-attention in Transformers relies on globally normalized softmax weights, causing all tokens to compete for influence at every layer. When composed across depth, this interaction pattern induces strong synchronization dynamics that favor convergence toward a dominant mode, a behavior associated with representation collapse and attention sink phenomena. We introduce Krause Attention, a principled attention mechanism inspired by bounded-confidence consensus dynamics. Krause Attention replaces similarity-based global aggregation with distance-based, localized, and selectively sparse interactions, promoting structured local synchronization instead of global mixing. We relate this behavior to recent theory modeling Transformer dynamics as interacting particle systems, and show how bounded-confidence interactions naturally moderate attention concentration and alleviate attention sinks. Restricting interactions to local neighborhoods also reduces runtime complexity from quadratic to linear in sequence length. Experiments across vision (ViT on CIFAR/ImageNet), autoregressive generation (MNIST/CIFAR-10), and large language models (Llama/Qwen) demonstrate consistent gains with substantially reduced computation, highlighting bounded-confidence dynamics as a scalable and effective inductive bias for attention.
- Abstract(参考訳): トランスフォーマーにおける自己注意は、グローバルに正規化されたソフトマックスの重みに依存しており、すべてのトークンがすべての層で影響を競う。
この相互作用パターンは、深さにまたがって構成されると、支配的なモードへの収束、表現崩壊と注目シンク現象に関連する挙動を優先する強い同期ダイナミクスを誘導する。
クラーズ・アテンション(Krause Attention)は、有界信頼コンセンサス・ダイナミクスにインスパイアされた注意機構である。
クラウス注意(Krause Attention)は、類似性に基づくグローバルアグリゲーションを、距離に基づく局所的、選択的にスパースな相互作用に置き換え、グローバルミキシングの代わりに構造化された局所的同期を促進する。
我々は、この挙動を、相互作用する粒子系としてトランスフォーマー力学をモデル化する最近の理論に関連付け、境界-信頼相互作用が自然に注意集中を緩やかにし、注意シンクを緩和することを示す。
局所的な近傍での相互作用の制限は、実行時の複雑さを2次から線形に減らす。
視覚(CIFAR/ImageNet上のViT)、自己回帰生成(MNIST/CIFAR-10)、および大規模言語モデル(Llama/Qwen)による実験は、大幅に少ない計算で一貫したゲインを示し、スケーラブルで効果的な帰納バイアスとして有界信頼度ダイナミクスを強調している。
関連論文リスト
- Investigation of quantum chaos in local and non-local Ising models [0.0]
横方向および縦方向の磁場を受けるイジングスピン鎖内の量子カオスについて検討する。
非局所的な相互作用を持つ系は、非局所的な結合が弱い場合でも、カオスに対する強い正当性を示す。
本研究は,カオスの開始と量子スピン鎖の動的複雑さの修飾における非局所相互作用の役割を明らかにするものである。
論文 参考訳(メタデータ) (2025-12-25T15:25:01Z) - The Mean-Field Dynamics of Transformers [6.008788032203683]
球面への注意を理想化することにより、トランスフォーマーダイナミクスをワッサーシュタイン勾配流(Kuramoto)と平均シフトクラスタリングに接続する。
その結果、表現の崩壊を促進するメカニズムと、深層アーキテクチャにおける表現力に富んだマルチクラスタ構造を維持する体制の両方を強調した。
論文 参考訳(メタデータ) (2025-12-01T16:51:00Z) - Kuramoto Orientation Diffusion Models [67.0711709825854]
指紋やテクスチャなどのオリエンテーションに富んだ画像は、しばしばコヒーレントな角模様を示す。
生体系における位相同期の役割を動機として,スコアベース生成モデルを提案する。
一般的な画像ベンチマークで競合する結果を実装し,指紋やテクスチャなどの指向性データセットの生成品質を大幅に向上する。
論文 参考訳(メタデータ) (2025-09-18T18:18:49Z) - Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。
ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文 参考訳(メタデータ) (2025-04-30T03:57:28Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z) - Critically slow operator dynamics in constrained many-body systems [0.0]
一定の制約のある多体システムでは、保存法則の構造が、この普遍的な振る舞いの劇的な修正を引き起こす可能性があることを示す。
動的凍結相から弾道を分離するOTOC前部をサブ弾道移動させた臨界点を同定する。
論文 参考訳(メタデータ) (2021-06-09T18:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。