論文の概要: Attention and Compression is all you need for Controllably Efficient Language Models
- arxiv url: http://arxiv.org/abs/2511.05313v1
- Date: Fri, 07 Nov 2025 15:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.809914
- Title: Attention and Compression is all you need for Controllably Efficient Language Models
- Title(参考訳): 制御に効率的な言語モデルに必要な注意と圧縮
- Authors: Jatin Prakash, Aahlad Puli, Rajesh Ranganath,
- Abstract要約: Compress & Attend Transformer (CAT) は、高密度の注意と圧縮を用いた概念的にシンプルなアーキテクチャである。
キャットは一度に複数のチャンクサイズでトレーニングでき、テスト時に直接品質計算トレードオフのコントロールをアンロックできる。
単一のCATは、言語モデリングにおける高密度なトランスフォーマーと、1.4~3倍高速で、総メモリ使用量を2~9倍削減する。
- 参考スコア(独自算出の注目度): 16.42720496730602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic cost of attention in transformers motivated the development of efficient approaches: namely sparse and sliding window attention, convolutions and linear attention. Although these approaches result in impressive reductions in compute and memory, they often trade-off with quality, specifically in-context recall performance. Moreover, apriori fixing this quality-compute tradeoff means being suboptimal from the get-go: some downstream applications require more memory for in-context recall, while others require lower latency and memory. Further, these approaches rely on heuristic choices that artificially restrict attention, or require handcrafted and complex recurrent state update rules, or they must be carefully composed with attention at specific layers to form a hybrid architecture that complicates the design process, especially at scale. To address above issues, we propose Compress & Attend Transformer (CAT), a conceptually simple architecture employing two simple ingredients only: dense attention and compression. CAT decodes chunks of tokens by attending to compressed chunks of the sequence so far. Compression results in decoding from a reduced sequence length that yields compute and memory savings, while choosing a particular chunk size trades-off quality for efficiency. Moreover, CAT can be trained with multiple chunk sizes at once, unlocking control of quality-compute trade-offs directly at test-time without any retraining, all in a single adaptive architecture. In exhaustive evaluations on common language modeling tasks, in-context recall, and long-context understanding, a single adaptive CAT model outperforms existing efficient baselines, including hybrid architectures, across different compute-memory budgets. Further, a single CAT matches dense transformer in language modeling across model scales while being 1.4-3x faster and requiring 2-9x lower total memory usage.
- Abstract(参考訳): 変圧器における注意の二次的コストは、スパースとスライディングウインドウの注意、畳み込み、線形の注意といった効率的なアプローチの開発を動機づけた。
これらのアプローチは計算とメモリの大幅な削減をもたらすが、品質、特にコンテキスト内リコールのパフォーマンスとトレードオフすることが多い。
さらに、Aprioriがこの品質計算のトレードオフを修正するということは、下降するアプリケーションがコンテキスト内リコールのためにより多くのメモリを必要とする一方で、低レイテンシとメモリを必要とする。
さらに、これらのアプローチは、人為的に注意を限定するヒューリスティックな選択や、手作りで複雑なリカレントな状態更新ルールを必要とする、あるいは設計プロセス、特に大規模で複雑なハイブリッドアーキテクチャを形成するために、特定のレイヤに注意を払って慎重に構成する必要がある。
上記の問題に対処するため,我々は,高密度注意と圧縮という2つの単純な要素のみを取り入れた概念的にシンプルなアーキテクチャであるCompress & Attend Transformer (CAT)を提案する。
CATは、これまでシーケンスの圧縮チャンクに出席することで、トークンのチャンクをデコードする。
圧縮は、特定のチャンクサイズのトレードオフ品質を効率のために選択しながら、計算とメモリの節約をもたらす減数シーケンス長から復号する。
さらに、CATは一度に複数のチャンクサイズでトレーニングでき、単一の適応アーキテクチャで再トレーニングすることなく、テスト時に品質計算トレードオフを直接制御できる。
共通言語モデリングタスクの徹底的な評価、コンテキスト内リコール、長いコンテキスト理解において、単一の適応型CATモデルは、様々な計算メモリ予算において、ハイブリッドアーキテクチャを含む既存の効率的なベースラインよりも優れています。
さらに、1つのCATは、言語モデリングにおける高密度なトランスフォーマーと、1.4~3倍高速で、総メモリ使用量を2~9倍削減する。
関連論文リスト
- Memory- and Latency-Constrained Inference of Large Language Models via Adaptive Split Computing [8.705453442427585]
大規模言語モデル(LLM)は様々な推論タスクでほぼ人間に近い性能を達成した。
リソース制約のあるIoT(Internet-of-Things)デバイスへのデプロイメントは、大量のパラメータフットプリントとメモリ集約型の自己回帰デコーディングのため、依然として現実的ではない。
この研究は、エッジデバイスにLLMを配置するために明示的に設計された最初の自動回帰対応分割コンピューティングフレームワークを紹介した。
論文 参考訳(メタデータ) (2025-11-06T02:55:07Z) - LAWCAT: Efficient Distillation from Quadratic to Linear Attention with Convolution across Tokens for Long Context Modeling [27.045621004239067]
本稿では,事前学習した変圧器の性能を線形アテンションアーキテクチャに効率よく伝達する新しい線形化フレームワークであるLAWCATを提案する。
LAWCATは因果Conv1D層を統合し、局所的な依存性モデリングを強化し、正規化されたゲート付き線形アテンションを用いてコンテキスト長の一般化を改善する。
以上の結果から,Mistral-7Bを1K長で蒸留すると,90%以上のパスキー検索精度が最大22Kトークンとなることがわかった。
論文 参考訳(メタデータ) (2025-09-22T22:43:44Z) - SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers [15.142822497807236]
固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャであるSCOUTを提案する。
SCOUTは、計算コストとメモリコストを大幅に削減しつつ、完全な注意の表現力を保っている。
SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
論文 参考訳(メタデータ) (2025-08-31T17:08:33Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。