Fugu-MT 論文翻訳(概要): RAT: Bridging RNN Efficiency and Attention Accuracy in Language Modeling

論文の概要: RAT: Bridging RNN Efficiency and Attention Accuracy in Language Modeling

arxiv url: http://arxiv.org/abs/2507.04416v1
Date: Sun, 06 Jul 2025 15:08:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:35.172916
Title: RAT: Bridging RNN Efficiency and Attention Accuracy in Language Modeling
Title（参考訳）: RAT:言語モデリングにおけるRNNの橋渡し効率と注意精度
Authors: Xiuying Wei, Anunay Yadav, Razvan Pascanu, Caglar Gulcehre,
Abstract要約: 再発機構と注意機構の間にラットという中間設計を導入する。入力をチャンクに分割し、各チャンク内で単純なリニアリカレンスを適用してローカル依存関係をキャプチャし、その後、チャンク全体でソフトマックスアテンションを行い、長距離インタラクションをモデル化する。チャンクサイズが16の場合、ラット層は100Kトークンシーケンスで(7時間)訓練速度を向上し、4Kシーケンス長で(9時間)生成する。
参考スコア（独自算出の注目度）: 17.437929000395112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers have become the cornerstone of modern large-scale language models; however, their dependence on softmax attention poses a major computational bottleneck, particularly in long-context settings. In this work, rather than following prevalent approaches such as linear attention (or SSMs) and local attention, we introduce an intermediate design called \rat between recurrence and attention mechanisms. It partitions the input into chunks, applies a simple linear recurrence within each chunk to capture local dependencies, and then performs softmax attention across chunks to model long-range interactions. By adjusting the size of the chunk, \rat enables flexible trade-offs, combining the strengths of RNN and attention. Empirically, with a chunk size of 16, the \rat layer achieves a \(7\times\) improvement in training speed with 100K token sequences and \(9\times\) in generation at 4K sequence length, while maintaining similar or sometimes even better accuracy compared to standard attention. We demonstrate this by training 1.3B parameter models from scratch and performing large-scale evaluations, including short- and long-context benchmarks, as well as supervised fine-tuning~(SFT). We further propose a hybrid architecture that interleaves \rat with local attention. By combining efficient long-range modeling with strong local interactions, this hybrid design not only improves inference speed and reduces cache memory usage compared to attention, but also consistently enhances performance, for example, achieving an average 1 point gain in commonsense reasoning tasks, up to 4 points on code tasks, and a 1 point Rouge-L increase in a summarization SFT task. Code is available at https://github.com/CLAIRE-Labo/RAT
Abstract（参考訳）: トランスフォーマーは現代の大規模言語モデルの基盤となっているが、ソフトマックスの注意への依存は特に長期のコンテキスト設定において大きな計算ボトルネックを引き起こす。本研究では,リニアアテンション(SSM)や局所アテンションといった一般的なアプローチに従うのではなく,リカレンス機構とアテンション機構の中間設計を提案する。入力をチャンクに分割し、各チャンク内で単純なリニアリカレンスを適用してローカル依存関係をキャプチャし、その後、チャンク全体でソフトマックスアテンションを行い、長距離インタラクションをモデル化する。チャンクのサイズを調整することで、Sharatは柔軟なトレードオフを可能にし、RNNの強みと注意力を組み合わせる。経験的には、チャンクサイズが16の \rat 層は、100Kのトークンシーケンスでトレーニング速度が \(7\times\) 向上し、4Kのシーケンス長で生成すると \(9\times\) を達成する。我々は,1.3Bパラメータモデルをスクラッチからトレーニングし,ショート・コンテクスト・ベンチマークや教師付き微調整(SFT)などを含む大規模評価を行うことによってこれを実証する。さらに,Ratをローカルな注目を集めるハイブリッドアーキテクチャを提案する。効率的なロングレンジモデリングと強力な局所的相互作用を組み合わせることで、このハイブリッド設計は推論速度を向上し、注意よりもキャッシュメモリ使用量を減らすだけでなく、例えば、常識的推論タスクで平均1ポイントのゲインを達成すること、コードタスクで最大4ポイント、要約SFTタスクで1ポイントのルージュ-Lの増加など、パフォーマンスを継続的に向上する。コードはhttps://github.com/CLAIRE-Labo/RATで入手できる。

関連論文リスト

AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.63873831179673]
拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。 textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文参考訳（メタデータ） (2025-05-29T14:59:06Z)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文参考訳（メタデータ） (2024-12-09T04:27:03Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
Correlation-Aware Select and Merge Attention for Efficient Fine-Tuning and Context Length Extension [21.729875191721984]
本稿では,効率的なスパースアテンションを実現するために,相関認識の選択とマージ機構を導入する。また、位置エンコーディングを含む新しいデータ拡張手法を提案し、不明瞭な位置への一般化を促進する。提案手法は,コンテキスト長4Mのパスキータスクに対して100%の精度を実現し,コンテクスト長1Mで安定したパープレキシティを維持する。
論文参考訳（メタデータ） (2024-10-05T15:59:32Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models [4.497551890206997]
自己保持機構は、シーケンス長で2次スケールする。 LongLoRAは、コンテキスト拡張を有効に可能にしたスパースアテンション(S(2)-Attn)を提案した。 SinkLoRAは相変わらずバニラの注意ほど効率的ではなく、完全な注意よりも難易度の改善の39%にしか達していない。
論文参考訳（メタデータ） (2024-06-09T07:23:34Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
TransNormerLLM: A Faster and Better Large Language Model with Improved TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文参考訳（メタデータ） (2023-07-27T16:45:33Z)
UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。 Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文参考訳（メタデータ） (2022-12-08T18:59:57Z)
Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文参考訳（メタデータ） (2021-07-12T22:43:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。