Fugu-MT 論文翻訳(概要): RAT: Bridging RNN Efficiency and Attention Accuracy via Chunk-based Sequence Modeling

論文の概要: RAT: Bridging RNN Efficiency and Attention Accuracy via Chunk-based Sequence Modeling

arxiv url: http://arxiv.org/abs/2507.04416v2
Date: Wed, 03 Sep 2025 14:28:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-04 17:24:09.207843
Title: RAT: Bridging RNN Efficiency and Attention Accuracy via Chunk-based Sequence Modeling
Title（参考訳）: RAT:チャンクに基づくシーケンスモデリングによるRNNのブリッジ効率と注意精度
Authors: Xiuying Wei, Anunay Yadav, Razvan Pascanu, Caglar Gulcehre,
Abstract要約: RNNの効率性と注目度を橋渡しする中間設計であるRATを提案する。 RATは入力をチャンクに分割し、局所的な依存関係に対して各チャンク内で繰り返し適用する。チャンクサイズが16のRATブロックは、100Kトークンシーケンスと9倍の4K位置で、トレーニング速度を7倍改善する。
参考スコア（独自算出の注目度）: 27.094682429698384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers have become the cornerstone of modern large-scale language models, but their reliance on softmax attention poses a computational bottleneck at both training and inference. Recurrent models offer high efficiency, but compressing the full sequence into a fixed-size and holistic representation suffers from memory degradation in long contexts and limits fine-grained retrieval. To address this, we propose RAT, an intermediate design that bridges the efficiency of RNNs and capacity of attention. RAT partitions the input into chunks, applies recurrence within each chunk for local dependencies, and softmax-based attention across chunks for long-range interactions. This design mitigates memory degradation and enables direct access to distant tokens, while retaining computational efficiency. Empirically, with a chunk size of 16, the RAT block achieves a 7x improvement in training speed with 100K token sequences and 9x in generation at the 4K position, while maintaining similar performance compared to standard attention. We demonstrate this by training 1.3B parameter models from scratch and performing large-scale evaluations, including short- and long-context benchmarks, as well as supervised fine-tuning~(SFT). We further propose a hybrid architecture that interleaves RAT with local attention. By combining efficient long-range modeling with strong local interactions, this hybrid design not only improves inference speed and reduces cache memory usage, but also consistently enhances performance and shows the overall best results. Code is available at https://github.com/CLAIRE-Labo/RAT.
Abstract（参考訳）: 変圧器は現代の大規模言語モデルの基盤となっているが、ソフトマックスの注意への依存は、訓練と推論の両方において計算のボトルネックとなっている。リカレントモデルは高い効率を提供するが、フルシーケンスを固定サイズで全体的な表現に圧縮することは、長いコンテキストでのメモリ劣化に悩まされ、きめ細かい検索が制限される。そこで本研究では,RNNの効率性と注目度を橋渡しする中間設計であるRATを提案する。 RATは入力をチャンクに分割し、局所的な依存関係に対して各チャンク内で繰り返し適用する。この設計はメモリの劣化を軽減し、計算効率を保ちながら、遠くのトークンへの直接アクセスを可能にする。経験的には、チャンクサイズが16のRATブロックは、100Kトークンシーケンスと9倍の4K位置でのトレーニング速度を7倍改善し、標準の注意力と同等のパフォーマンスを維持している。我々は,1.3Bパラメータモデルをスクラッチからトレーニングし,ショート・コンテクスト・ベンチマークや教師付き微調整(SFT)などを含む大規模評価を行うことによってこれを実証する。我々はさらに、RATをローカルな関心を持ってインターリーブするハイブリッドアーキテクチャを提案する。効率的な長距離モデリングと強力な局所的相互作用を組み合わせることで、このハイブリッド設計は推論速度を向上し、キャッシュメモリ使用量を減らすだけでなく、パフォーマンスを一貫して向上させ、全体的な最良の結果を示す。コードはhttps://github.com/CLAIRE-Labo/RAT.comで入手できる。

関連論文リスト

AllMem: A Memory-centric Recipe for Efficient Long-context Modeling [32.025154452526856]
大規模言語モデル(LLM)は、長時間のタスクにおいて重大なパフォーマンスボトルネックに直面する。 SWA(Sliding Window Attention)とTTT(Non-linear Test-Time Training)メモリネットワークを統合した,新規で効率的なハイブリッドアーキテクチャであるtextscAllMemを紹介する。
論文参考訳（メタデータ） (2026-02-14T09:04:28Z)
Attention and Compression is all you need for Controllably Efficient Language Models [16.42720496730602]
Compress & Attend Transformer (CAT) は、高密度の注意と圧縮を用いた概念的にシンプルなアーキテクチャである。キャットは一度に複数のチャンクサイズでトレーニングでき、テスト時に直接品質計算トレードオフのコントロールをアンロックできる。単一のCATは、言語モデリングにおける高密度なトランスフォーマーと、1.4～3倍高速で、総メモリ使用量を2～9倍削減する。
論文参考訳（メタデータ） (2025-11-07T15:13:28Z)
SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers [15.142822497807236]
固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャであるSCOUTを提案する。 SCOUTは、計算コストとメモリコストを大幅に削減しつつ、完全な注意の表現力を保っている。 SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
論文参考訳（メタデータ） (2025-08-31T17:08:33Z)
Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [108.0657508755532]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文参考訳（メタデータ） (2025-07-09T07:27:00Z)
Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。 RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文参考訳（メタデータ） (2025-06-01T23:49:14Z)
AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.63873831179673]
拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。 textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文参考訳（メタデータ） (2025-05-29T14:59:06Z)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8026360054331]
iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文参考訳（メタデータ） (2025-03-20T19:10:37Z)
SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文参考訳（メタデータ） (2024-12-09T04:27:03Z)
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。 CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。 CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文参考訳（メタデータ） (2024-11-26T15:13:15Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
Correlation-Aware Select and Merge Attention for Efficient Fine-Tuning and Context Length Extension [21.729875191721984]
本稿では,効率的なスパースアテンションを実現するために,相関認識の選択とマージ機構を導入する。また、位置エンコーディングを含む新しいデータ拡張手法を提案し、不明瞭な位置への一般化を促進する。提案手法は,コンテキスト長4Mのパスキータスクに対して100%の精度を実現し,コンテクスト長1Mで安定したパープレキシティを維持する。
論文参考訳（メタデータ） (2024-10-05T15:59:32Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models [4.497551890206997]
自己保持機構は、シーケンス長で2次スケールする。 LongLoRAは、コンテキスト拡張を有効に可能にしたスパースアテンション(S(2)-Attn)を提案した。 SinkLoRAは相変わらずバニラの注意ほど効率的ではなく、完全な注意よりも難易度の改善の39%にしか達していない。
論文参考訳（メタデータ） (2024-06-09T07:23:34Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
TransNormerLLM: A Faster and Better Large Language Model with Improved TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文参考訳（メタデータ） (2023-07-27T16:45:33Z)
UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。 Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文参考訳（メタデータ） (2022-12-08T18:59:57Z)
Sparse Attention Acceleration with Synergistic In-Memory Pruning and On-Chip Recomputation [6.303594714446706]
自己認識機構は、入力シーケンス全体にわたってペアワイズ相関を計測する。良好な性能にもかかわらず、ペアワイズ相関を計算するのは非常にコストがかかる。この研究は、注意点を近似的に計算するSPRINTと呼ばれるアクセラレーターを設計することで、これらの制約に対処する。
論文参考訳（メタデータ） (2022-09-01T17:18:19Z)
Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文参考訳（メタデータ） (2021-07-12T22:43:11Z)
Adaptive Filters and Aggregator Fusion for Efficient Graph Convolutions [11.769185588579488]
本稿では,アクセル実装に適した特性とともに,メモリ消費と遅延を低減した最先端性能を示す。提案手法は,エッジ数に比例するメモリを必要とする競合手法とは対照的に,グラフ内の頂点数に比例するメモリを用いる。 GNNが表現力を大幅に高める技術であるアグリゲーター融合を提案し、標準のスパース行列乗算よりも19%の遅延がわずかに増加している。
論文参考訳（メタデータ） (2021-04-03T20:54:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。