論文の概要: You Need Better Attention Priors
- arxiv url: http://arxiv.org/abs/2601.15380v1
- Date: Wed, 21 Jan 2026 19:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.383273
- Title: You Need Better Attention Priors
- Title(参考訳): 事前の注意が必要だ
- Authors: Elon Litman, Gabe Guo,
- Abstract要約: GOAT(Generalized Optimal Transport Attention with Trainable Priors)を紹介する。
GOATは、注意シンクのEOTベースの説明を提供し、それらに対する解決策を具体化する。
GOATは、学習した位置埋め込みの柔軟性と固定符号化の長さの一般化を組み合わせた拡張可能な事前学習を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We generalize the attention mechanism by viewing it through the lens of Entropic Optimal Transport, revealing that standard attention corresponds to a transport problem regularized by an implicit uniform prior. We introduce Generalized Optimal transport Attention with Trainable priors (GOAT), a new attention mechanism that replaces this naive assumption with a learnable, continuous prior. This prior maintains full compatibility with optimized kernels such as FlashAttention. GOAT also provides an EOT-based explanation of attention sinks and materializes a solution for them, avoiding the representational trade-offs of standard attention. Finally, by absorbing spatial information into the core attention computation, GOAT learns an extrapolatable prior that combines the flexibility of learned positional embeddings with the length generalization of fixed encodings.
- Abstract(参考訳): エントロピック・オプティマル・トランスポート(英語版)のレンズを通して観測することで、注意機構を一般化し、標準の注意は暗黙の均一性によって正則化される輸送問題に対応することを示した。
本稿では,この素早い仮定を学習可能な連続的な前提に置き換える新しい注意機構であるGOAT(Generalized Optimal Transport Attention with Trainable Priors)を紹介する。
この前は、FlashAttentionのような最適化されたカーネルとの完全な互換性を維持していた。
GOATはまた、注意シンクのEOTベースの説明を提供し、標準注意の表現的トレードオフを避けることで、それらに対するソリューションを実現する。
最後に、コアアテンション計算に空間情報を吸収することにより、GOATは学習された位置埋め込みの柔軟性と固定符号化の長さの一般化を組み合わせた、拡張可能な事前学習を行う。
関連論文リスト
- Affine-Scaled Attention: Towards Flexible and Stable Transformer Attention [14.827874140211328]
トランスフォーマーの注意は通常、単位和正規化で注意重みを強制するソフトマックス正規化を用いて実装される。
Affine-Scaled Attention, a simple extension to standard attention that bringing input-dependent scaling and a corresponding bias term applied to softmax-normalized attention weights。
論文 参考訳(メタデータ) (2026-02-26T14:42:16Z) - Learning to Focus: Prioritizing Informative Histories with Structured Attention Mechanisms in Partially Observable Reinforcement Learning [9.233407096706744]
本研究では, 動的ヘッドの自己保持機構に, 構造的インダクティブ先行を導入する。
Atari 100kベンチマークの実験では、ほとんどの効率向上がガウス以前の結果から生じることが示されている。
論文 参考訳(メタデータ) (2025-11-10T10:53:16Z) - Alleviating Forgetfulness of Linear Attention by Hybrid Sparse Attention and Contextualized Learnable Token Eviction [12.740812798007573]
有限メモリは、検索集約的なタスクに害を与える忘れやすさを誘導する。
過去のトークンへの直接アクセスを復元する一連のハイブリッドモデルについて検討する。
本稿では,新しい学習可能なトークン消去手法を提案する。
論文 参考訳(メタデータ) (2025-10-23T17:53:03Z) - Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Unlocking Slot Attention by Changing Optimal Transport Costs [53.730667864485156]
MESHは、非正規化された最適輸送と正規化された最適輸送の速度を結合する断続モジュールである。
複数のオブジェクト中心学習ベンチマークでMESHを用いてスロットアテンションを評価し,各設定においてスロットアテンションよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2023-01-30T18:59:21Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Focus of Attention Improves Information Transfer in Visual Features [80.22965663534556]
本稿では,真のオンライン環境下での視覚情報伝達のための教師なし学習に焦点を当てた。
エントロピー項の計算は、エントロピー項のオンライン推定を行う時間的プロセスによって行われる。
入力確率分布をよりよく構成するために,人間のような注目モデルを用いる。
論文 参考訳(メタデータ) (2020-06-16T15:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。