論文の概要: Transformers Learn Faster with Semantic Focus
- arxiv url: http://arxiv.org/abs/2506.14095v2
- Date: Wed, 18 Jun 2025 12:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.392823
- Title: Transformers Learn Faster with Semantic Focus
- Title(参考訳): トランスフォーマーはセマンティックフォーカスでより速く学習する
- Authors: Parikshit Ram, Kenneth L. Clarkson, Tim Klinger, Shashanka Ubaru, Alexander G. Gray,
- Abstract要約: 学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
- 参考スコア(独自算出の注目度): 57.97235825738412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Various forms of sparse attention have been explored to mitigate the quadratic computational and memory cost of the attention mechanism in transformers. We study sparse transformers not through a lens of efficiency but rather in terms of learnability and generalization. Empirically studying a range of attention mechanisms, we find that input-dependent sparse attention models appear to converge faster and generalize better than standard attention models, while input-agnostic sparse attention models show no such benefits -- a phenomenon that is robust across architectural and optimization hyperparameter choices. This can be interpreted as demonstrating that concentrating a model's "semantic focus" with respect to the tokens currently being considered (in the form of input-dependent sparse attention) accelerates learning. We develop a theoretical characterization of the conditions that explain this behavior. We establish a connection between the stability of the standard softmax and the loss function's Lipschitz properties, then show how sparsity affects the stability of the softmax and the subsequent convergence and generalization guarantees resulting from the attention mechanism. This allows us to theoretically establish that input-agnostic sparse attention does not provide any benefits. We also characterize conditions when semantic focus (input-dependent sparse attention) can provide improved guarantees, and we validate that these conditions are in fact met in our empirical evaluations.
- Abstract(参考訳): 変圧器における注意機構の2次計算とメモリコストを緩和するために,様々な注意形態が検討されている。
本研究では,スパース変圧器を効率のよいレンズではなく,学習性と一般化の観点から研究する。
様々な注意機構を実証的に研究したところ、入力依存スパース注意モデルは標準の注意モデルよりも早く収束し、より一般化しているように見えるが、入力依存スパース注意モデルはそのような利点を示さない。
これは、現在検討されているトークン(入力依存のスパース・アテンションの形で)に関して、モデルの「セマンティック・フォーカス」を集中させることが学習を促進することを示すものとして解釈できる。
この振る舞いを説明する条件を理論的に解析する。
我々は、標準ソフトマックスの安定性と損失関数のリプシッツ特性の接続を確立し、その後、疎度がソフトマックスの安定性とその後の収束と、注意機構から生じる一般化の保証にどのように影響するかを示す。
これにより、入力非依存のスパースアテンションがメリットを与えないことを理論的に確立できます。
また、セマンティック・フォーカス(インプット依存のスパース・アテンション)が保証を改善できる条件を特徴付けるとともに、これらの条件が実際に経験的評価で満たされていることを検証する。
関連論文リスト
- Sigmoid Self-Attention has Lower Sample Complexity than Softmax Self-Attention: A Mixture-of-Experts Perspective [69.72942835553228]
本稿では,Sigmoid self-attentionがソフトマックスよりも試料効率が高いことを理論的に示す。
筆者らは, 自己注意行列を専門家の混合として表現し, シグモイドの自己注意における専門家の意識は, ソフトマックスの自己意識と同一の近似誤差を達成するために, 極めて少ないデータを必要とすることを示した。
論文 参考訳(メタデータ) (2025-02-01T02:36:14Z) - Regulating Model Reliance on Non-Robust Features by Smoothing Input Marginal Density [93.32594873253534]
信頼できる機械学習は、非ロバストな特徴に依存するモデルの厳密な規制を必要とする。
本稿では,モデル予測を入力に関連付けることによって,そのような特徴を記述・規制するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T09:16:56Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - How Smooth Is Attention? [26.322030088685928]
いくつかの実践シナリオにおいて、リプシッツ定数の自己注意について詳細に研究する。
任意のコンパクト集合における長さ$n$の入力に対して、自己注意のリプシッツ定数は定数係数まで$sqrtn$で有界であることを示す。
マスクされた自己注意のための平均フィールドフレームワークは、新しくて独立した関心事です。
論文 参考訳(メタデータ) (2023-12-22T16:47:10Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。