論文の概要: Exploiting Sparsity for Long Context Inference: Million Token Contexts on Commodity GPUs
- arxiv url: http://arxiv.org/abs/2502.06766v1
- Date: Mon, 10 Feb 2025 18:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:39.913280
- Title: Exploiting Sparsity for Long Context Inference: Million Token Contexts on Commodity GPUs
- Title(参考訳): 長期的コンテキスト推論のためのスパシリティの爆発:コモディティGPU上の数百万のトークンコンテキスト
- Authors: Ryan Synk, Monte Hoover, John Kirchenbauer, Neel Jain, Alex Stein, Manli Shu, Josue Melendez Sanchez, Ramani Duraiswami, Tom Goldstein,
- Abstract要約: 極端なスケールでの推論は、かなりの計算資源を必要とする。
本稿では,各生成ステップにおいて最も関連性の高いトークンにのみ参加することで,フォワードパスのコストを低減できる可変機構を提案する。
実験結果から,鍵数や値の減少によって生じる疎結合をモデルが処理できることが判明した。
- 参考スコア(独自算出の注目度): 43.55336520253117
- License:
- Abstract: There is growing demand for performing inference with hundreds of thousands of input tokens on trained transformer models. Inference at this extreme scale demands significant computational resources, hindering the application of transformers at long contexts on commodity (i.e not data center scale) hardware. To address the inference time costs associated with running self-attention based transformer language models on long contexts and enable their adoption on widely available hardware, we propose a tunable mechanism that reduces the cost of the forward pass by attending to only the most relevant tokens at every generation step using a top-k selection mechanism. We showcase the efficiency gains afforded by our method by performing inference on context windows up to 1M tokens using approximately 16GB of GPU RAM. Our experiments reveal that models are capable of handling the sparsity induced by the reduced number of keys and values. By attending to less than 2% of input tokens, we achieve over 95% of model performance on common long context benchmarks (LM-Eval, AlpacaEval, and RULER).
- Abstract(参考訳): トレーニングされたトランスフォーマーモデル上で数十万の入力トークンで推論を行う必要性が高まっている。
この極端なスケールでの推論は重要な計算資源を必要とし、コモディティ(すなわちデータセンタースケールではない)ハードウェア上の長いコンテキストでのトランスフォーマーの適用を妨げる。
長期にわたる自己注意型トランスフォーマー言語モデルの実行に伴う推論時間コストに対処し,広く利用可能なハードウェアへの導入を可能にするため,トップk選択機構を用いて,各生成ステップにおいて最も関連性の高いトークンにのみ参加することにより,前方通過のコストを低減できる調整可能な機構を提案する。
約16GBのGPURAMを用いて,コンテキストウィンドウ上で最大100万トークンの推論を行うことにより,提案手法の効率向上を示す。
実験結果から,鍵数や値の減少によって生じる疎結合をモデルが処理できることが判明した。
入力トークンの2%未満に収まることで、一般的なロングコンテキストベンチマーク(LM-Eval、AlpacaEval、RULER)のモデル性能の95%以上を達成できる。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy [46.81745860690336]
大規模言語モデル(LLM)は、質問応答、翻訳、テキスト要約、対話システムなど、様々なタスクで大きく進歩している。
本稿では,推論プロセスの高速化のための汎用フレームワークを提案する。
我々は、推論加速フレームワークの適用によって達成された顕著な改善を実証するために、広範囲な実験を行う。
論文 参考訳(メタデータ) (2023-12-20T02:55:15Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - Scaling Transformer to 1M tokens and beyond with RMT [5.60052250541419]
変圧器によって解ける問題の範囲の広い大きな制限は、入力サイズによる計算複雑性の2次スケーリングである。
本研究では,入力コンテキスト長を線形にスケーリングしながら,事前学習したトランスフォーマーモデルの繰り返しメモリ拡張について検討する。
提案手法は,検索精度を高く保ちつつ,前例のない200万トークンのシーケンスの情報をメモリに格納できることを実証する。
論文 参考訳(メタデータ) (2023-04-19T16:18:54Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。