Fugu-MT 論文翻訳(概要): HashAttention: Semantic Sparsity for Faster Inference

論文の概要: HashAttention: Semantic Sparsity for Faster Inference

arxiv url: http://arxiv.org/abs/2412.14468v1
Date: Thu, 19 Dec 2024 02:34:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:15.961562
Title: HashAttention: Semantic Sparsity for Faster Inference
Title（参考訳）: HashAttention: より高速な推論のためのセマンティックな疎結合
Authors: Aditya Desai, Shuo Yang, Alejandro Cuadron, Ana Klimovic, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica,
Abstract要約: HashAttentionは、推奨問題としてピボットトークンの識別をキャストする原則的なアプローチである。ビットワイズ演算を用いて、このハミング空間における所定のクエリに対する重要なトークンを効率的に識別する。これはLongBenchとLlama-3.1-8Bモデルの1/32times$で使用されるトークンの数を減らすことができる。
参考スコア（独自算出の注目度）: 91.54218318798603
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Utilizing longer contexts is increasingly essential to power better AI systems. However, the cost of attending to long contexts is high due to the involved softmax computation. While the scaled dot-product attention (SDPA) exhibits token sparsity, with only a few pivotal tokens significantly contributing to attention, leveraging this sparsity effectively remains an open challenge. Previous methods either suffer from model degradation or require considerable additional resources. We propose HashAttention --a principled approach casting pivotal token identification as a recommendation problem. Given a query, HashAttention encodes keys and queries in Hamming space capturing the required semantic similarity using learned mapping functions. HashAttention efficiently identifies pivotal tokens for a given query in this Hamming space using bitwise operations, and only these pivotal tokens are used for attention computation, significantly improving overall attention efficiency. HashAttention can reduce the number of tokens used by a factor of $1/32\times$ for the Llama-3.1-8B model with LongBench, keeping average quality loss within 0.6 points, while using only 32 bits per token auxiliary memory. At $32\times$ sparsity, HashAttention is $3{-}6\times$ faster than LightLLM and $2.5{-}4.5\times$ faster than gpt-fast on Nvidia-L4 GPU.
Abstract（参考訳）: より長いコンテキストの利用は、より良いAIシステムを動かすためにますます不可欠になっている。しかし、ソフトマックス計算が関与しているため、長時間のコンテクストへの参加コストが高い。 SDPA (Scaled dot-product attention) はトークンの空白度を示すが、この空白度を効果的に活用することはオープンな課題である。それまでの方法は、モデル劣化に悩まされたり、追加のリソースが必要だったりする。本稿では,HashAttention(HashAttention)を提案する。クエリが与えられた場合、HashAttentionは、学習したマッピング関数を使用して、必要なセマンティックな類似性をキャプチャする、ハミング空間のキーとクエリをエンコードする。 HashAttentionは、ビットワイズ演算を用いて、このハミング空間における所定のクエリに対する重要なトークンを効率的に識別し、これらの重要なトークンだけが注意計算に使用され、全体的な注意効率が大幅に向上する。 HashAttentionはLongBenchを使ったLlama-3.1-8Bモデルの1/32\times$で使用されるトークンの数を減らし、平均的な品質損失を0.6ポイントに抑える。 HashAttentionは32ドルで、LightLLMよりも3{-}6\times$、Nvidia-L4 GPUのgpt-fastより2.5{-}4.5\times$速い。

関連論文リスト

TokenButler: Token Importance is Predictable [8.514853311344458]
大規模言語モデル(LLM)はトークン履歴を保存するためにキーバリューキャッシュ(KV)に依存しており、トークンの効率的な復号を可能にする。以前の研究では、トークンの小さなサブセットのみが、各デコードステップに有意義に寄与することが示されている。 TokenButlerは、これらの重要なトークンを識別することを学ぶ、高粒度でクエリ対応の予測器である。
論文参考訳（メタデータ） (2025-03-10T16:41:14Z)
Efficient Long-Decoding Inference with Reasoning-Aware Attention Sparsity [14.409253716114213]
推論タスクを解くには、時間とメモリ消費の$O(N)を発生させる(思考の)長いデコードチェーンを必要とすることが多い。我々はRaaSという新しいアルゴリズムを提案し、マイルストーントークンを識別し、保持するが、それはもはや必要なくなるまでである。このパターンに基づいて,$O(L)$時間と$O(L)$メモリの複雑さで精度の高いRaaSというアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-16T14:28:52Z)
HashEvict: A Pre-Attention KV Cache Eviction Strategy using Locality-Sensitive Hashing [32.62377392686119]
本稿では,局所性に敏感なハッシュ(LSH)を用いてKVキャッシュを圧縮するアルゴリズムであるHashEvictを紹介する。 HashEvictは、推論、複数選択、長文検索、要約タスクのハイパフォーマンスを維持しながら、KVキャッシュを30%-70%圧縮することができる。
論文参考訳（メタデータ） (2024-12-13T06:00:27Z)
Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
選択トークン保持やウィンドウベースアテンションを含む既存の手法では、効率は向上するが、将来のテキスト生成に必要な重要なトークンを破棄するリスクがある。トークンを破棄するのではなく、重要でないトークンのメモリと計算負荷を削減し、トークンロスを伴わずにLCM効率を向上させるアプローチを提案する。
論文参考訳（メタデータ） (2024-12-03T08:29:27Z)
Post-Training Sparse Attention with Double Sparsity [44.772593893621085]
ダブルスパシティ」は、KVキャッシュアクセスを減らすことで、このボトルネックを軽減するために設計された、訓練後スパースアテンション技術である。 Double Sparsityは、自己アテンションを計算するための重要なトークンのみを活用するトークンのスペシャリティと、重要なトークンを識別するための重要な機能チャネルを使用するチャネルのスペシャリティを組み合わせたものだ。オフローディングにより、16.3$times$のデコード速度を、256Kのシークエンス長の最先端のソリューションと比較して達成する。
論文参考訳（メタデータ） (2024-08-11T18:40:36Z)
One Pass Streaming Algorithm for Super Long Token Attention Approximation in Sublinear Space [11.735802740426294]
注意計算は、$O(n2)$の時間複雑性と$O(n2)$の空間複雑性を同時に行う。ストリーミング方式で1パスのデータのみを読み取る新しいアルゴリズムを導入する。特に,本アルゴリズムは,超長期トークンを用いたメモリ効率の優れた性能を示す。
論文参考訳（メタデータ） (2023-11-24T18:35:00Z)
Tokenization and the Noiseless Channel [71.25796813073399]
優れたトークン化器は、ある入力がモデルに伝達される手段であるチャネルの使用率を高める。機械翻訳では、複数のトークン化器において、$alpha = 2.5$のR'enyiエントロピーがtextscBleu: $0.78$と非常に強い相関を持つことがわかった。
論文参考訳（メタデータ） (2023-06-29T10:32:09Z)
H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文参考訳（メタデータ） (2023-06-24T20:11:14Z)
Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文参考訳（メタデータ） (2022-07-26T04:38:47Z)
Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。 3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文参考訳（メタデータ） (2020-04-24T02:23:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。