Fugu-MT 論文翻訳(概要): Token-Picker: Accelerating Attention in Text Generation with Minimized Memory Transfer via Probability Estimation

論文の概要: Token-Picker: Accelerating Attention in Text Generation with Minimized Memory Transfer via Probability Estimation

arxiv url: http://arxiv.org/abs/2407.15131v1
Date: Sun, 21 Jul 2024 11:56:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 19:08:59.479198
Title: Token-Picker: Accelerating Attention in Text Generation with Minimized Memory Transfer via Probability Estimation
Title（参考訳）: Token-Picker:確率推定による最小メモリ転送によるテキスト生成における注意の促進
Authors: Junyoung Park, Myeonggu Kang, Yunki Han, Yanggon Kim, Jaekang Shin, Lee-Sup Kim,
Abstract要約: オフチップメモリアクセスは、より高速な実行のために最小限にする必要がある。オンデマンドのオフチップアクセスをシームレスにサポートするハードウェア設計を提案する。我々の手法はメモリアクセスを2.6倍削減し、平均2.3倍のスピードアップと2.4倍のエネルギー効率をもたらす。
参考スコア（独自算出の注目度）: 10.92385684322183
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The attention mechanism in text generation is memory-bounded due to its sequential characteristics. Therefore, off-chip memory accesses should be minimized for faster execution. Although previous methods addressed this by pruning unimportant tokens, they fall short in selectively removing tokens with near-zero attention probabilities in each instance. Our method estimates the probability before the softmax function, effectively removing low probability tokens and achieving an 12.1x pruning ratio without fine-tuning. Additionally, we present a hardware design supporting seamless on-demand off-chip access. Our approach shows 2.6x reduced memory accesses, leading to an average 2.3x speedup and a 2.4x energy efficiency.
Abstract（参考訳）: テキスト生成におけるアテンション機構は、そのシーケンシャルな特性のためにメモリバウンドされる。したがって、オフチップメモリアクセスはより高速な実行のために最小化されるべきである。従来の手法では重要でないトークンをプルーニングすることでこの問題に対処していたが、各インスタンスにほぼゼロの注意確率を持つトークンを選択的に除去するには不足していた。提案手法はソフトマックス関数の前の確率を推定し,低確率トークンを効果的に除去し,微調整をせずに12.1倍のプルーニング比を達成する。さらに、オンデマンドのオフチップアクセスをシームレスにサポートするハードウェア設計を提案する。我々の手法はメモリアクセスを2.6倍削減し、平均2.3倍のスピードアップと2.4倍のエネルギー効率をもたらす。

関連論文リスト

Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。 LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文参考訳（メタデータ） (2025-06-16T03:00:40Z)
Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。 1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文参考訳（メタデータ） (2025-05-16T13:48:33Z)
TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models [8.636574530055817]
TokenCarveは、2段階のトークン圧縮フレームワークである。ビジュアルトークンの数を22.2%に減らし、推論の1.23倍のスピードアップ、KVキャッシュストレージの64%の削減、精度の1.54%の低下を達成できる。
論文参考訳（メタデータ） (2025-03-13T16:04:31Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
HashAttention: Semantic Sparsity for Faster Inference [91.54218318798603]
HashAttentionは、推奨問題としてピボットトークンの識別をキャストする原則的なアプローチである。ビットワイズ演算を用いて、このハミング空間における所定のクエリに対する重要なトークンを効率的に識別する。これはLongBenchとLlama-3.1-8Bモデルの1/32times$で使用されるトークンの数を減らすことができる。
論文参考訳（メタデータ） (2024-12-19T02:34:15Z)
Token Cropr: Faster ViTs for Quite a Few Tasks [12.97062850155708]
本稿では,タスク関連性に基づいてトークンをエンドツーエンドに選択する方法を学習する補助予測ヘッドを用いたトークンプルーナを提案する。画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションについて評価し,1.5～4倍の性能低下を示す。
論文参考訳（メタデータ） (2024-12-01T20:58:29Z)
Cottention: Linear Transformers With Cosine Attention [2.762180345826837]
ソフトマックス操作をコサイン類似性に置き換える新しい注意機構であるCottentionを導入する。 Cottentionは、配列長に関してネイティブな線形メモリ複雑性を実現し、ソフトマックスの注意よりも本質的にメモリ効率が良い。
論文参考訳（メタデータ） (2024-09-27T13:38:36Z)
Post-Training Sparse Attention with Double Sparsity [44.772593893621085]
ダブルスパシティ」は、KVキャッシュアクセスを減らすことで、このボトルネックを軽減するために設計された、訓練後スパースアテンション技術である。 Double Sparsityは、自己アテンションを計算するための重要なトークンのみを活用するトークンのスペシャリティと、重要なトークンを識別するための重要な機能チャネルを使用するチャネルのスペシャリティを組み合わせたものだ。オフローディングにより、16.3$times$のデコード速度を、256Kのシークエンス長の最先端のソリューションと比較して達成する。
論文参考訳（メタデータ） (2024-08-11T18:40:36Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification [6.660834045805309]
BERTのような事前訓練されたトランスフォーマーは計算コストのかかる自己保持機構に悩まされる。トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。さまざまなデータセットによる実験は、ベースラインモデルよりも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-06-03T12:51:52Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。 StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文参考訳（メタデータ） (2023-09-29T17:59:56Z)
SkipDecode: Autoregressive Skip Decoding with Batching and Caching for Efficient LLM Inference [17.947904697850433]
バッチ推論とKeyValueキャッシュのためのトークンレベルの早期終了メソッドであるSkipDecodeを提案する。これは、各シーケンス位置のバッチ内の各トークンに対して特異レベル出口を設定することで、以前の制約を克服する。また、イグジットポイントの単調な減少を保証するため、前のトークンに対してKVキャッシュを再コンパイルする必要がなくなる。
論文参考訳（メタデータ） (2023-07-05T19:59:09Z)
Rediscovering Hashed Random Projections for Efficient Quantization of Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文参考訳（メタデータ） (2023-03-13T10:53:00Z)
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。 FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文参考訳（メタデータ） (2022-05-27T17:53:09Z)
ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。 ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文参考訳（メタデータ） (2021-10-06T03:53:25Z)
Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%～75%の推論コストを削減できる。
論文参考訳（メタデータ） (2021-05-28T14:39:26Z)
SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning [10.981433334942476]
本稿では,トークンの空白度,頭部の空白度,量子化の機会を利用して注意計算やメモリアクセスを減らす,効率的なアルゴリズムアーキテクチャの共同設計であるSpAttenを提案する。 30のベンチマークでの実験では、SpAttenはDRAMアクセスを10.0xの精度で削減し、1.6x, 3.0x, 162x, 347xのスピードアップと1,4x, 3.2x, 1193x, 4059xの省エネを実現している。
論文参考訳（メタデータ） (2020-12-17T18:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。