論文の概要: ASAP: Amortized Doubly-Stochastic Attention via Sliced Dual Projection
- arxiv url: http://arxiv.org/abs/2605.12879v1
- Date: Wed, 13 May 2026 01:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.754411
- Title: ASAP: Amortized Doubly-Stochastic Attention via Sliced Dual Projection
- Title(参考訳): ASAP:スライスデュアルプロジェクションによる二重確率的アテンション
- Authors: Huy Tran, Max Milkert, David Hyde,
- Abstract要約: Amortized Doubly-Stochastic Attention via Sliced Dual Projection。
二重確率層をシンクホーンで訓練し、推論時の反復スケーリングループを固定スライスダイアル演算子に置き換える。
正確な1次元のカントロヴィチポテンシャルからシンクホーンクエリサイドの双対への軽量パラメトリックマップを学習し、2面のエントロピーc-変換でアテンションプランを再構築する。
- 参考スコア(独自算出の注目度): 2.51764254245076
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Doubly-stochastic attention has emerged as a transport-based alternative to row-softmax attention, with recent Transformer variants using it to reduce attention sinks and rank collapse while improving performance. In this family, the standard approach is Sinkhorn scaling, which trains more efficiently but still repeats matrix scaling in every inference forward pass. Sliced-transport attention removes the online iteration, but its soft sorting approximation materializes dense tensors for each slice, requiring substantially more training resources than Sinkhorn attention. We introduce ASAP: Amortized Doubly-Stochastic Attention via Sliced Dual Projection, a train-then-compile method that trains the doubly-stochastic layer with Sinkhorn, then replaces the iterative scaling loop at inference with a fixed sliced-dual operator. It learns a lightweight parametric map from exact one-dimensional Kantorovich potentials to the Sinkhorn query-side dual, then reconstructs the attention plan with a two-sided entropic c-transform. Across language and vision benchmarks, ASAP keeps the cheaper training setup and remains highly competitive with recent baselines. In the main frozen-layer benchmark, ASAP is 5.3 faster than the trained Sinkhorn teacher while matching its accuracy; in downstream replacements, ASAP recovers most of the teacher performance without any retraining.
- Abstract(参考訳): 最近のTransformerの変種は、性能を改善しつつ、注目シンクとランク崩壊を減らすために使われている。
このファミリーでは、シンクホーンスケーリング(Sinkhorn scaling)が標準的なアプローチであり、より効率的にトレーニングするが、推論のフォワードパス毎に行列スケーリングを繰り返す。
Sliced-transport attention(スライス・トランスポート・アテンション)はオンライン反復を除去するが、そのソフトなソート近似はスライスごとに密度の高いテンソルを具現化し、シンクホーン・アテンションよりもはるかに多くのトレーニングリソースを必要とする。
Amortized Doubly-Stochastic Attention via Sliced Dual Projection, a train-then-compile method that the doublely-stochastic layer with Sinkhorn, then then then replaced the iterationative scaling loop at inference with a fixed sliced-dual operator。
正確な1次元のカントロヴィチポテンシャルからシンクホーンクエリサイドの双対への軽量パラメトリックマップを学習し、2面のエントロピーc-変換でアテンションプランを再構築する。
言語とビジョンのベンチマーク全体を通じて、ASAPはより安価なトレーニング設定を維持し、最近のベースラインと高い競争力を維持している。
メインの凍結層ベンチマークでは、ASAPはトレーニングされたシンクホーンの教師よりも5.3速であり、その正確さが一致している。
関連論文リスト
- Long Context Pre-Training with Lighthouse Attention [5.900714266080363]
極端配列長の訓練因果変換器は、スケールドドット積注意(SDPA)の2次時間と記憶によってボトルネックとなる
トレーニングのみの対称選択に基づく階層型アテンションアルゴリズムであるLighthouse Attentionを提案する。
階層的な選択もグラデーションフリーであり、複雑で潜在的に非効率な後方パスカーネルを扱うことを免除します。
論文 参考訳(メタデータ) (2026-05-07T16:49:28Z) - NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches [1.8613536568358355]
非線形低ランク分岐を変換器の線形層に追加するアーキテクチャ拡張であるNOBLEを導入する。
NOBLEはオーバーヘッドを最小限に抑えて大幅な改善を実現している。
LLM(250Mおよび1.5Bパラメータ)、BERT、VQGAN、ViTの実験は、トレーニング効率を継続的に改善した。
論文 参考訳(メタデータ) (2026-03-06T17:22:04Z) - LOTFormer: Doubly-Stochastic Linear Attention via Low-Rank Optimal Transport [21.50165411149415]
線形時間と二重確率を同時に行う原理的注意機構を提案する。
LotFormerはLong Range Arenaベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-27T18:11:09Z) - A Stable Whitening Optimizer for Efficient Neural Network Training [99.7641280234926]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。
まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。
第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。
第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文 参考訳(メタデータ) (2025-06-08T18:43:31Z) - ESPFormer: Doubly-Stochastic Attention with Expected Sliced Transport Plans [13.695885742446027]
自己注意は、トレーニング中にいくつかのトークンを過度に集中させ、その結果、準最適情報フローをもたらす可能性がある。
我々は,スライスされた最適輸送に基づく,新しい並列化可能な二重確率的アテンション機構を提案する。
本手法は, 繰り返しシンクホーン正規化を伴わずに二重性を適用し, 効率を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T21:20:48Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - Sparse Sinkhorn Attention [93.88158993722716]
Sparse Sinkhorn Attentionを提案する。
本稿では,列上の潜在置換を生成するメタソートネットワークを提案する。
ソートシーケンスが与えられた場合、局所ウィンドウのみを用いて準グロバルアテンションを計算することができる。
論文 参考訳(メタデータ) (2020-02-26T04:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。