論文の概要: Learning to Focus: Focal Attention for Selective and Scalable Transformers
- arxiv url: http://arxiv.org/abs/2511.06818v1
- Date: Mon, 10 Nov 2025 08:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.149134
- Title: Learning to Focus: Focal Attention for Selective and Scalable Transformers
- Title(参考訳): 焦点を合わせるための学習:選択型およびスケーラブルなトランスフォーマーのための焦点注意
- Authors: Dhananjay Ram, Wei Xia, Stefano Soatto,
- Abstract要約: 焦点注意は、ソフトマックス温度を制御することによって注意分布を鋭くする。
パラメータの最大42%、トレーニングデータの最大33%の精度で、同じ精度を達成する。
長時間のタスクでは、17%から82%の大幅な相対的な改善を実現している。
- 参考スコア(独自算出の注目度): 42.95333397590571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention is a core component of transformer architecture, whether encoder-only, decoder-only, or encoder-decoder model. However, the standard softmax attention often produces noisy probability distribution, which can impair effective feature selection at every layer of these models, particularly for long contexts. We propose Focal Attention, a simple yet effective modification that sharpens the attention distribution by controlling the softmax temperature, either as a fixed hyperparameter or as a learnable parameter during training. This sharpening enables the model to concentrate on the most relevant tokens while suppressing irrelevant ones. Empirically, Focal Attention scales more favorably than standard transformer with respect to model size, training data, and context length. Across diverse benchmarks, it achieves the same accuracy with up to 42% fewer parameters or 33% less training data. On long-context tasks, it delivers substantial relative improvements ranging from 17% to 82%, demonstrating its effectiveness in real world applications.
- Abstract(参考訳): アテンションは、エンコーダのみ、デコーダのみ、エンコーダ-デコーダモデルといったトランスフォーマーアーキテクチャのコアコンポーネントである。
しかし、標準的なソフトマックスの注意は、しばしばノイズの多い確率分布を生じさせ、特に長いコンテキストにおいて、これらのモデルのすべての層で効果的な特徴選択を損なう可能性がある。
トレーニング中, ソフトマックス温度を一定パラメータとして, あるいは学習可能なパラメータとして制御することで, 注意分布を鋭くする簡易かつ効果的な修正法であるFocal Attentionを提案する。
このシャープ化により、モデルは無関係なトークンを抑えながら、最も関連性の高いトークンに集中することができる。
実証的には、Focal Attentionはモデルサイズ、トレーニングデータ、コンテキスト長に関して、標準のTransformerよりも好意的にスケールする。
さまざまなベンチマークで、パラメータを最大42%、トレーニングデータを最大33%削減して、同じ精度を達成する。
長時間のタスクでは、17%から82%の相対的な改善を実現し、実世界のアプリケーションでその効果を実証している。
関連論文リスト
- Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Balancing Accuracy, Calibration, and Efficiency in Active Learning with Vision Transformers Under Label Noise [1.4269314427770698]
本研究では,低予算制約および雑音ラベル下での視覚変換器の性能に及ぼすモデルサイズの影響について検討した。
より大型のViTモデルは、中程度から高いラベルノイズの下でも、精度とキャリブレーションの両方において、より小型のモデルよりも一貫して優れていることを示す。
情報に基づくアクティブラーニング戦略は、中程度のラベルノイズ率で有意な精度の向上しか得られないが、ランダムに取得したラベルで訓練されたモデルに比べてキャリブレーションが低くなる。
論文 参考訳(メタデータ) (2025-05-07T12:53:13Z) - Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding [3.9826635165229223]
提案するTop-theta (Top-$theta$) Attention, a training-free method for sparsification transformer attention during inference。
私たちのキーとなる洞察は、頭当たりの静的な閾値は、アテンション行当たりの重要な要素の一定数の保持のために調整できるということです。
Top-Theta$は、Vキャッシュの使用を3~10倍削減し、推論中の注目要素を最大10倍削減するが、精度は1%以下である。
論文 参考訳(メタデータ) (2025-02-12T12:50:15Z) - Don't Pay Attention, PLANT It: Pretraining Attention via Learning-to-Rank [13.036827996908896]
PLANT (Pretrained and Leveraged Attention) - 注意を初期化するためのプラグイン・アンド・プレイ戦略。
PLANTは、相互情報ゲインによって導かれる事前訓練された学習と学習のモデルを用いて、ラベル固有の注意を植えることによって機能する。
ICDコーディング、法的トピック分類、コンテンツレコメンデーションなどのタスクにおいて、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-10-30T14:41:23Z) - MaCP: Minimal yet Mighty Adaptation via Hierarchical Cosine Projection [10.300935899853748]
MaCP(Minimum yet Mighty Adaptive Cosine Projection)は、最小パラメータとメモリを必要としながら、例外的な性能を達成する。
既存の代替システムに比べて高い精度、計算量を大幅に削減し、メモリ要件を低くする。
論文 参考訳(メタデータ) (2024-10-09T16:07:42Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Camouflage is all you need: Evaluating and Enhancing Language Model
Robustness Against Camouflage Adversarial Attacks [53.87300498478744]
自然言語処理(NLP)における敵攻撃の意義
本研究は、脆弱性評価とレジリエンス向上という2つの異なる段階において、この課題を体系的に探求する。
結果として、パフォーマンスとロバスト性の間のトレードオフが示唆され、いくつかのモデルは、ロバスト性を確保しながら、同様のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-02-15T10:58:22Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Fast Server Learning Rate Tuning for Coded Federated Dropout [3.9653673778225946]
Federated Dropout (FD) はFLセッションの通信効率を改善する技術である。
各クライアントで異なるサブモデルを使用することで、符号化理論を利用してFDを強化する。
EMNISTデータセットの場合、このメカニズムはドロップアウトケースの最終的な精度の99.6%を達成する。
論文 参考訳(メタデータ) (2022-01-26T16:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。