論文の概要: Sinkhorn doubly stochastic attention rank decay analysis
- arxiv url: http://arxiv.org/abs/2604.07925v1
- Date: Thu, 09 Apr 2026 07:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.774932
- Title: Sinkhorn doubly stochastic attention rank decay analysis
- Title(参考訳): シンクホーン2倍の確率的注意ランク減衰解析
- Authors: Michela Lapenna, Rita Fioresi, Bahman Gharesifard,
- Abstract要約: Sinkhornアルゴリズムで正規化された2重の注意が、標準のSoftmax行確率よりも効果的にランクを保っていることを示す。
シンクホーン正規化(英語版)を用いるとき、純粋自己アテンションランクの減衰の理論的境界を導出し、そのランクが深さと指数関数的に2つに崩壊することを発見する。
- 参考スコア(独自算出の注目度): 1.376408511310322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The self-attention mechanism is central to the success of Transformer architectures. However, standard row-stochastic attention has been shown to suffer from significant signal degradation across layers. In particular, it can induce rank collapse, resulting in increasingly uniform token representations, as well as entropy collapse, characterized by highly concentrated attention distributions. Recent work has highlighted the benefits of doubly stochastic attention as a form of entropy regularization, promoting a more balanced attention distribution and leading to improved empirical performance. In this paper, we study rank collapse across network depth and show that doubly stochastic attention matrices normalized with Sinkhorn algorithm preserve rank more effectively than standard Softmax row-stochastic ones. As previously shown for Softmax, skip connections are crucial to mitigate rank collapse. We empirically validate this phenomenon on both sentiment analysis and image classification tasks. Moreover, we derive a theoretical bound for the pure self-attention rank decay when using Sinkhorn normalization and find that rank decays to one doubly exponentially with depth, a phenomenon that has already been shown for Softmax.
- Abstract(参考訳): 自己維持メカニズムは、Transformerアーキテクチャの成功の中心である。
しかし、標準的な行確率的注意は層間の信号劣化に悩まされていることが示されている。
特に、高度に集中した注意分布を特徴とするエントロピー崩壊と同様に、ランク崩壊を誘発し、より均一なトークン表現をもたらす。
最近の研究は、エントロピー正規化の一形態として、二重確率的注意の利点を強調し、よりバランスの取れた注意分布を促進し、経験的パフォーマンスの向上につながった。
本稿では,ネットワーク深度にまたがるランク崩壊について検討し,Sinkhornアルゴリズムで正規化された2つの確率的注意行列が,標準的なSoftmax行確率行列よりも効率的にランクを保っていることを示す。
これまでSoftmaxで示されていたように、スキップ接続はランク崩壊を緩和するために不可欠である。
我々はこの現象を感情分析と画像分類の両方で実証的に検証した。
さらに、シンクホーン正規化(英語版)を用いるとき、純粋自己アテンションランク減衰の理論的境界を導出し、そのランク減衰が深さとともに2倍指数的に指数関数的に現れることを発見した。
関連論文リスト
- On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers [3.686808512438363]
ソフトマックスに基づく注意の代替は、効果的な情報の流れを妨げる傾向があるためである。
我々は、注目行列の2つの最大の特異勾配の間のスペクトルギャップを明らかにするために厳密な解析を行う。
外れ値を取り除き、広さのランク崩壊を解消する新しい簡単な実用的解法を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:34:18Z) - On the Role of Attention Masks and LayerNorm in Transformers [55.81177251872377]
自己注意はトランスの鍵となるメカニズムである。
近年の研究では、純粋な自己意識は階級崩壊の度合いが増すことが示されている。
論文 参考訳(メタデータ) (2024-05-29T05:41:28Z) - Self-attention Networks Localize When QK-eigenspectrum Concentrates [9.379890125442335]
自己認識メカニズムは、現代の機械学習で一般的である。
2つの議論が、モデルのパフォーマンスに注意を向けるローカライゼーションを結び付けている。
我々は,小さな固有スペクトルの分散が注意を局所化させることを示した。
論文 参考訳(メタデータ) (2024-02-03T09:35:53Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。