論文の概要: RAT+: Train Dense, Infer Sparse -- Recurrence Augmented Attention for Dilated Inference
- arxiv url: http://arxiv.org/abs/2602.18196v1
- Date: Fri, 20 Feb 2026 13:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.334477
- Title: RAT+: Train Dense, Infer Sparse -- Recurrence Augmented Attention for Dilated Inference
- Title(参考訳): RAT+:列車のディエンス、インターフェールスパース -- 拡張推論に対する再帰的注意を増す
- Authors: Xiuying Wei, Caglar Gulcehre,
- Abstract要約: RAT+は高密度な事前学習アーキテクチャであり,全シーケンスの繰り返しとアクティブな反復学習によって注意を増す。
100Bトークンでトレーニングされた1.5Bパラメータでは、RAT+は16の精度で密に一致し、コモンセンス推論とLongBenchタスクで64で約2-3ポイント低下する。
- 参考スコア(独自算出の注目度): 13.471581610990187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured dilated attention has an appealing inference-time efficiency knob: it reduces the FLOPs of the attention and the KV cache size by a factor of the dilation size D, while preserving long-range connectivity. However, we find a persistent failure mode of them -- sparsifying a pretrained attention model to a dilated pattern leads to severe accuracy degradation. We introduce RAT+, a dense-pretraining architecture that augments attention with full-sequence recurrence and active recurrence learning. A single RAT+ model is pretrained densely once, then flexibly switched at inference time to dilated attention (optionally with local windows) or hybrid layer/head compositions, requiring only a short 1B-token resolution adaptation rather than retraining separate sparse models. At 1.5B parameters trained on 100B tokens, RAT+ closely matches dense accuracy at 16 and drops by about 2-3 points at 64 on commonsense reasoning and LongBench tasks, respectively. Moreover, RAT+ outperforms attention when sparsifying to the top-k block attention. We further scale to 2.6B parameters and 200B tokens and observe the same trend.
- Abstract(参考訳): 長期接続を維持しつつ、拡張サイズDの因子により、注目のFLOPとKVキャッシュサイズを減少させる。
しかし、それらは永続的な障害モードであり、トレーニング済みの注意モデルを拡張されたパターンに分散させることで、深刻な精度の低下につながる。
RAT+は高密度な事前学習アーキテクチャであり,全シーケンスの繰り返しとアクティブな反復学習によって注意を増す。
単一のRAT+モデルは1度だけ事前訓練され、その後、推論時に(ローカルウィンドウとオプションで)拡張された注意やハイブリッド層/ヘッドの合成に柔軟に切り替えられる。
100Bトークンでトレーニングされた1.5Bパラメータでは、RAT+は16の精度で密に一致し、コモンセンス推論とLongBenchタスクでは64の精度で約2-3ポイント低下する。
さらに、RAT+は、トップkブロックの注意をスパシフィケーションする際に、注意力より優れる。
我々はさらに2.6Bパラメータと200Bトークンにスケールし、同じ傾向を観察します。
関連論文リスト
- Efficient-LVSM: Faster, Cheaper, and Better Large View Synthesis Model via Decoupled Co-Refinement Attention [105.11288339285154]
Efficient-LVSMは、インプットビューにビュー内自己アテンションを適用し、ターゲットビューに自己テーマ横断アテンションを適用するデュアルストリームアーキテクチャである。
2つの入力ビューを持つRealEstate10Kでは29.86dBのPSNRを実現し、LVSMを0.2dBで上回り、2倍高速なトレーニングコンバージェンスと4.4倍高速な推論速度を実現している。
論文 参考訳(メタデータ) (2026-02-06T08:11:58Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - RAT: Bridging RNN Efficiency and Attention Accuracy via Chunk-based Sequence Modeling [27.094682429698384]
RNNの効率性と注目度を橋渡しする中間設計であるRATを提案する。
RATは入力をチャンクに分割し、局所的な依存関係に対して各チャンク内で繰り返し適用する。
チャンクサイズが16のRATブロックは、100Kトークンシーケンスと9倍の4K位置で、トレーニング速度を7倍改善する。
論文 参考訳(メタデータ) (2025-07-06T15:08:49Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - Outlier Robust Adversarial Training [57.06824365801612]
本研究では,アウトリー・ロバスト・アドバイザリアル・トレーニング(ORAT)を紹介する。
ORATは、強靭なランクに基づく損失関数を持つ対向訓練の2レベル最適化の定式化に基づいている。
ORATの学習目的はバイナリ分類における$mathcalH$-consistencyを満たすことが示され、これは敵の0/1損失に対する適切なサロゲートとして確立されている。
論文 参考訳(メタデータ) (2023-09-10T21:36:38Z) - Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation [6.303594714446706]
自己認識機構は、入力シーケンス全体にわたってペアワイズ相関を計測する。
良好な性能にもかかわらず、ペアワイズ相関を計算するのは非常にコストがかかる。
この研究は、注意点を近似的に計算するSPRINTと呼ばれるアクセラレーターを設計することで、これらの制約に対処する。
論文 参考訳(メタデータ) (2022-09-01T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。