論文の概要: You Need Better Attention Priors
- arxiv url: http://arxiv.org/abs/2601.15380v1
- Date: Wed, 21 Jan 2026 19:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.383273
- Title: You Need Better Attention Priors
- Title(参考訳): 事前の注意が必要だ
- Authors: Elon Litman, Gabe Guo,
- Abstract要約: GOAT(Generalized Optimal Transport Attention with Trainable Priors)を紹介する。
GOATは、注意シンクのEOTベースの説明を提供し、それらに対する解決策を具体化する。
GOATは、学習した位置埋め込みの柔軟性と固定符号化の長さの一般化を組み合わせた拡張可能な事前学習を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We generalize the attention mechanism by viewing it through the lens of Entropic Optimal Transport, revealing that standard attention corresponds to a transport problem regularized by an implicit uniform prior. We introduce Generalized Optimal transport Attention with Trainable priors (GOAT), a new attention mechanism that replaces this naive assumption with a learnable, continuous prior. This prior maintains full compatibility with optimized kernels such as FlashAttention. GOAT also provides an EOT-based explanation of attention sinks and materializes a solution for them, avoiding the representational trade-offs of standard attention. Finally, by absorbing spatial information into the core attention computation, GOAT learns an extrapolatable prior that combines the flexibility of learned positional embeddings with the length generalization of fixed encodings.
- Abstract(参考訳): エントロピック・オプティマル・トランスポート(英語版)のレンズを通して観測することで、注意機構を一般化し、標準の注意は暗黙の均一性によって正則化される輸送問題に対応することを示した。
本稿では,この素早い仮定を学習可能な連続的な前提に置き換える新しい注意機構であるGOAT(Generalized Optimal Transport Attention with Trainable Priors)を紹介する。
この前は、FlashAttentionのような最適化されたカーネルとの完全な互換性を維持していた。
GOATはまた、注意シンクのEOTベースの説明を提供し、標準注意の表現的トレードオフを避けることで、それらに対するソリューションを実現する。
最後に、コアアテンション計算に空間情報を吸収することにより、GOATは学習された位置埋め込みの柔軟性と固定符号化の長さの一般化を組み合わせた、拡張可能な事前学習を行う。
関連論文リスト
- Learning to Focus: Prioritizing Informative Histories with Structured Attention Mechanisms in Partially Observable Reinforcement Learning [9.233407096706744]
本研究では, 動的ヘッドの自己保持機構に, 構造的インダクティブ先行を導入する。
Atari 100kベンチマークの実験では、ほとんどの効率向上がガウス以前の結果から生じることが示されている。
論文 参考訳(メタデータ) (2025-11-10T10:53:16Z) - Alleviating Forgetfulness of Linear Attention by Hybrid Sparse Attention and Contextualized Learnable Token Eviction [12.740812798007573]
有限メモリは、検索集約的なタスクに害を与える忘れやすさを誘導する。
過去のトークンへの直接アクセスを復元する一連のハイブリッドモデルについて検討する。
本稿では,新しい学習可能なトークン消去手法を提案する。
論文 参考訳(メタデータ) (2025-10-23T17:53:03Z) - Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Unlocking Slot Attention by Changing Optimal Transport Costs [53.730667864485156]
MESHは、非正規化された最適輸送と正規化された最適輸送の速度を結合する断続モジュールである。
複数のオブジェクト中心学習ベンチマークでMESHを用いてスロットアテンションを評価し,各設定においてスロットアテンションよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2023-01-30T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。