論文の概要: Affine-Scaled Attention: Towards Flexible and Stable Transformer Attention
- arxiv url: http://arxiv.org/abs/2602.23057v1
- Date: Thu, 26 Feb 2026 14:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.724905
- Title: Affine-Scaled Attention: Towards Flexible and Stable Transformer Attention
- Title(参考訳): アフィンスケールアテンション:フレキシブルで安定なトランスアテンションを目指して
- Authors: Jeongin Bae, Baeseong Park, Gunho Park, Minsub Kim, Joonhyung Lee, Junhee Yoo, Sunghyeon Woo, Jiwon Ryu, Se Jung Kwon, Dongsoo Lee,
- Abstract要約: トランスフォーマーの注意は通常、単位和正規化で注意重みを強制するソフトマックス正規化を用いて実装される。
Affine-Scaled Attention, a simple extension to standard attention that bringing input-dependent scaling and a corresponding bias term applied to softmax-normalized attention weights。
- 参考スコア(独自算出の注目度): 14.827874140211328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer attention is typically implemented using softmax normalization, which enforces attention weights with unit sum normalization. While effective in many settings, this constraint can limit flexibility in controlling attention magnitudes and may contribute to overly concentrated or unstable attention patterns during training. Prior work has explored modifications such as attention sinks or gating mechanisms, but these approaches provide only limited or indirect control over attention reweighting. We propose Affine-Scaled Attention, a simple extension to standard attention that introduces input-dependent scaling and a corresponding bias term applied to softmax-normalized attention weights. This design relaxes the strict normalization constraint while maintaining aggregation of value representations, allowing the model to adjust both the relative distribution and the scale of attention in a controlled manner. We empirically evaluate Affine-Scaled Attention in large-scale language model pretraining across multiple model sizes. Experimental results show consistent improvements in training stability, optimization behavior, and downstream task performance compared to standard softmax attention and attention sink baselines. These findings suggest that modest reweighting of attention outputs provides a practical and effective way to improve attention behavior in Transformer models.
- Abstract(参考訳): トランスフォーマーの注意は通常、単位和正規化で注意重みを強制するソフトマックス正規化を用いて実装される。
多くの設定で効果的であるが、この制約は注意の大きさを制御する柔軟性を制限し、トレーニング中に過度に集中または不安定な注意パターンに寄与する可能性がある。
従来の研究では、注意シンクやゲーティング機構などの修正について検討されてきたが、これらの手法は注意の重み付けを限定的または間接的に制御するだけである。
Affine-Scaled Attention, a simple extension to standard attention that bringing input-dependent scaling and a corresponding bias term applied to softmax-normalized attention weights。
この設計は、値表現の集約を維持しながら厳密な正規化制約を緩和し、モデルが相対分布と注意尺度の両方を制御的に調整できるようにする。
Affine-Scaled Attention in large-scale language model pretraining across multiple model size。
実験結果から, トレーニング安定性, 最適化挙動, ダウンストリームタスク性能は, 標準ソフトマックスアテンションやアテンションシンクベースラインと比較して一貫した改善が見られた。
これらの結果は,トランスフォーマーモデルにおける注意行動を改善するための実用的で効果的な手法として,注意出力の緩やかな再重み付けが重要であることを示唆している。
関連論文リスト
- AMPS: Adaptive Modality Preference Steering via Functional Entropy [66.69992693275061]
本稿では,各モータリティの情報提供量を定量化し,ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を提案する。
実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-02-13T02:29:06Z) - A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。
アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。
外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文 参考訳(メタデータ) (2026-01-30T13:29:45Z) - Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
本稿では,2段階のプロセスとして注目する新しい設計原則を提案する。
第一段階では、標準指数関数をより数値的に安定なソフトプラス活性化に置き換える。
第2段階では、注意分布を鋭くする再重み付け機構を導入する。
論文 参考訳(メタデータ) (2025-01-23T07:21:08Z) - More Expressive Attention with Negative Weights [36.40344438470477]
本稿では,注意重みを否定的に表現力を高めるための新しい注意機構,Cog Attentionを提案する。
我々のアプローチは、従来のソフトマックスの注意力の制約を再考し、壊すための有望な研究方向を示唆している。
論文 参考訳(メタデータ) (2024-11-11T17:56:28Z) - Linear Log-Normal Attention with Unbiased Concentration [3.034257650900382]
本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。
本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。
ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2023-11-22T17:30:41Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。