論文の概要: Transformers Learn Faster with Semantic Focus
- arxiv url: http://arxiv.org/abs/2506.14095v2
- Date: Wed, 18 Jun 2025 12:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.392823
- Title: Transformers Learn Faster with Semantic Focus
- Title(参考訳): トランスフォーマーはセマンティックフォーカスでより速く学習する
- Authors: Parikshit Ram, Kenneth L. Clarkson, Tim Klinger, Shashanka Ubaru, Alexander G. Gray,
- Abstract要約: 学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
- 参考スコア(独自算出の注目度): 57.97235825738412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Various forms of sparse attention have been explored to mitigate the quadratic computational and memory cost of the attention mechanism in transformers. We study sparse transformers not through a lens of efficiency but rather in terms of learnability and generalization. Empirically studying a range of attention mechanisms, we find that input-dependent sparse attention models appear to converge faster and generalize better than standard attention models, while input-agnostic sparse attention models show no such benefits -- a phenomenon that is robust across architectural and optimization hyperparameter choices. This can be interpreted as demonstrating that concentrating a model's "semantic focus" with respect to the tokens currently being considered (in the form of input-dependent sparse attention) accelerates learning. We develop a theoretical characterization of the conditions that explain this behavior. We establish a connection between the stability of the standard softmax and the loss function's Lipschitz properties, then show how sparsity affects the stability of the softmax and the subsequent convergence and generalization guarantees resulting from the attention mechanism. This allows us to theoretically establish that input-agnostic sparse attention does not provide any benefits. We also characterize conditions when semantic focus (input-dependent sparse attention) can provide improved guarantees, and we validate that these conditions are in fact met in our empirical evaluations.
- Abstract(参考訳): 変圧器における注意機構の2次計算とメモリコストを緩和するために,様々な注意形態が検討されている。
本研究では,スパース変圧器を効率のよいレンズではなく,学習性と一般化の観点から研究する。
様々な注意機構を実証的に研究したところ、入力依存スパース注意モデルは標準の注意モデルよりも早く収束し、より一般化しているように見えるが、入力依存スパース注意モデルはそのような利点を示さない。
これは、現在検討されているトークン(入力依存のスパース・アテンションの形で)に関して、モデルの「セマンティック・フォーカス」を集中させることが学習を促進することを示すものとして解釈できる。
この振る舞いを説明する条件を理論的に解析する。
我々は、標準ソフトマックスの安定性と損失関数のリプシッツ特性の接続を確立し、その後、疎度がソフトマックスの安定性とその後の収束と、注意機構から生じる一般化の保証にどのように影響するかを示す。
これにより、入力非依存のスパースアテンションがメリットを与えないことを理論的に確立できます。
また、セマンティック・フォーカス(インプット依存のスパース・アテンション)が保証を改善できる条件を特徴付けるとともに、これらの条件が実際に経験的評価で満たされていることを検証する。
関連論文リスト
- Sigmoid Self-Attention has Lower Sample Complexity than Softmax Self-Attention: A Mixture-of-Experts Perspective [69.72942835553228]
本稿では,Sigmoid self-attentionがソフトマックスよりも試料効率が高いことを理論的に示す。
筆者らは, 自己注意行列を専門家の混合として表現し, シグモイドの自己注意における専門家の意識は, ソフトマックスの自己意識と同一の近似誤差を達成するために, 極めて少ないデータを必要とすることを示した。
論文 参考訳(メタデータ) (2025-02-01T02:36:14Z) - Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
従来のSoftmaxの注意は、推論トークンの長さが増加するにつれて、数値的な不安定さと性能の低下に悩まされる。
本稿では,Softmax演算を非線形変換と$l_1$-normに分解することで,これらの問題に対処する。
我々は,従来のSoftmaxのアテンションよりも優れた性能を持つ新しいアテンション機構を,様々な推論長さにわたって構築する。
論文 参考訳(メタデータ) (2025-01-23T07:21:08Z) - Optical aberrations in autonomous driving: Physics-informed parameterized temperature scaling for neural network uncertainty calibration [49.03824084306578]
本稿では,ニューラルネットワークのキャリブレーションアーキテクチャに物理的帰納バイアスを組み込むことにより,AIターゲットアプリケーションの堅牢性と信頼性を高めることを提案する。
信頼に値する不確実性表現と認識連鎖の総合的検証戦略の道を開く。
論文 参考訳(メタデータ) (2024-12-18T10:36:46Z) - Regulating Model Reliance on Non-Robust Features by Smoothing Input Marginal Density [93.32594873253534]
信頼できる機械学習は、非ロバストな特徴に依存するモデルの厳密な規制を必要とする。
本稿では,モデル予測を入力に関連付けることによって,そのような特徴を記述・規制するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T09:16:56Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - How Smooth Is Attention? [26.322030088685928]
いくつかの実践シナリオにおいて、リプシッツ定数の自己注意について詳細に研究する。
任意のコンパクト集合における長さ$n$の入力に対して、自己注意のリプシッツ定数は定数係数まで$sqrtn$で有界であることを示す。
マスクされた自己注意のための平均フィールドフレームワークは、新しくて独立した関心事です。
論文 参考訳(メタデータ) (2023-12-22T16:47:10Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。