Fugu-MT 論文翻訳(概要): Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers

論文の概要: Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers

arxiv url: http://arxiv.org/abs/2502.01770v1
Date: Mon, 03 Feb 2025 19:24:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.64612
Title: Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers
Title（参考訳）: ハミング注意蒸留:効率的な長文変換器のための鍵とクエリのバイナリ化
Authors: Mark Horton, Tergel Molom-Ochir, Peter Liu, Bhavna Gopal, Chiyue Wei, Cong Guo, Brady Taylor, Deliang Fan, Shan X. Wang, Hai Li, Yiran Chen,
Abstract要約: 本稿では,ハミング注意蒸留(HAD)について紹介する。これは注意機構のキーとクエリをバイナライズして,大幅な効率向上を実現するフレームワークである。我々は,HADをカスタムハードウェアシミュレーションに実装し,標準的なハードウェア実装と比較して優れた性能特性を示す。
参考スコア（独自算出の注目度）: 18.469378618426294
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained transformer models with extended context windows are notoriously expensive to run at scale, often limiting real-world deployment due to their high computational and memory requirements. In this paper, we introduce Hamming Attention Distillation (HAD), a novel framework that binarizes keys and queries in the attention mechanism to achieve significant efficiency gains. By converting keys and queries into {-1, +1} vectors and replacing dot-product operations with efficient Hamming distance computations, our method drastically reduces computational overhead. Additionally, we incorporate attention matrix sparsification to prune low-impact activations, which further reduces the cost of processing long-context sequences. \par Despite these aggressive compression strategies, our distilled approach preserves a high degree of representational power, leading to substantially improved accuracy compared to prior transformer binarization methods. We evaluate HAD on a range of tasks and models, including the GLUE benchmark, ImageNet, and QuALITY, demonstrating state-of-the-art performance among binarized Transformers while drastically reducing the computational costs of long-context inference. \par We implement HAD in custom hardware simulations, demonstrating superior performance characteristics compared to a custom hardware implementation of standard attention. HAD achieves just $\mathbf{1.78}\%$ performance losses on GLUE compared to $9.08\%$ in state-of-the-art binarization work, and $\mathbf{2.5}\%$ performance losses on ImageNet compared to $12.14\%$, all while targeting custom hardware with a $\mathbf{79}\%$ area reduction and $\mathbf{87}\%$ power reduction compared to its standard attention counterpart.
Abstract（参考訳）: 拡張コンテキストウィンドウを備えた事前トレーニングされたトランスフォーマーモデルは、大規模に動作させるのに費用がかかることで知られており、計算とメモリの要求が高いため、現実のデプロイメントを制限していることが多い。本稿では,ハミング注意蒸留(HAD, Hamming Attention Distillation)について紹介する。キーとクエリを {-1, +1} ベクトルに変換し、ドット積演算を効率的なハミング距離計算に置き換えることで、計算オーバーヘッドを大幅に削減する。さらに,アテンション行列のスペーシフィケーションを低インパクトアクティベーションに組み込むことにより,長文シーケンス処理のコストをさらに削減する。これらの積極的な圧縮戦略にもかかわらず, 蒸留法は高い表現力を保持し, 従来の変圧器バイナライゼーション法に比べて精度が大幅に向上した。我々は,GLUEベンチマークやImageNet,QuALITYなど,さまざまなタスクやモデルを用いてHADを評価し,二項変換器の最先端性能を示すとともに,長文推論の計算コストを大幅に削減する。カスタムハードウェアシミュレーションにHADを実装し、標準のハードウェア実装と比較して優れた性能特性を示す。 HAD は GLUE のパフォーマンス損失を 9.08 % で、最先端のバイナライゼーション作業では 9.08 % で、ImageNet では 12.14 で、パフォーマンス損失を $\mathbf{2.5 で達成している。

関連論文リスト

Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
Progressive Sparse Attention: Algorithm and System Co-design for Efficient Attention in LLM Serving [10.835583587146274]
本稿では,$underlineP$rogressive $underlineS$parse $underlineA$ttentionメカニズムを提案する。アルゴリズムの革新とシステムの共同設計を統合し、大規模言語モデルにおいて高い推論精度と効率性の両方を達成する。実験によると、PSAは注意計算のKVキャッシュ使用量を2.4$times$と8.8$times$に削減し、エンドツーエンドのサービススループットを1.4$times$と2.0$times$に向上する。
論文参考訳（メタデータ） (2025-03-01T07:56:42Z)
Gated Slot Attention for Efficient Linear-Time Sequence Modeling [59.019501274074564]
Gated Slot Attention(GSA)は境界メモリ・コントロル(ABC)による注意を高める GSAはGated Linear Attention (GLA)にインスパイアされたゲーティング機構を組み込んでいる
論文参考訳（メタデータ） (2024-09-11T09:49:50Z)
SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization [36.84275777364218]
本稿では,効率的な変圧器の計算ボトルネックモジュール,すなわち正規化層とアテンションモジュールについて検討する。 LayerNormはトランスフォーマーアーキテクチャで一般的に使用されるが、推論中の統計計算のために計算に適さない。本稿では,LayerNorm を再パラメータ化した BatchNorm に段階的に置き換える PRepBN という新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-19T15:22:25Z)
Scene Adaptive Sparse Transformer for Event-based Object Detection [40.04162039970849]
イベントベースオブジェクト検出のためのSAST(Scene Adaptive Sparse Transformer)を提案する。 SASTはウィンドウツーケンコスパーシフィケーションを可能にし、フォールトトレランスを大幅に向上し、計算オーバーヘッドを低減する。 2つの大規模イベントベースのオブジェクト検出データセットのパフォーマンスと効率の両方において、他の高密度でスパースなネットワークよりも優れています。
論文参考訳（メタデータ） (2024-04-02T12:15:25Z)
Laughing Hyena Distillery: Extracting Compact Recurrences From Convolutions [101.08706223326928]
近年のアテンションフリーシーケンスモデルの発展は、トランスフォーマーのコアにあるアテンション演算子の代替として、畳み込みに依存している。本稿では,事前学習した長大な畳み込みアーキテクチャにおいて,トークン当たりの計算コストとメモリコストを$mathcal O(1)$にすることを提案する。
論文参考訳（メタデータ） (2023-10-28T18:40:03Z)
CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文参考訳（メタデータ） (2023-05-17T03:19:18Z)
Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文参考訳（メタデータ） (2023-01-05T18:59:52Z)
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文参考訳（メタデータ） (2022-11-30T05:31:45Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Energon: Towards Efficient Acceleration of Transformers Using Dynamic Sparse Attention [5.495006023171481]
トランスフォーマーモデルは自然言語処理(NLP)に革命をもたらし、コンピュータビジョン(CV)タスクで有望なパフォーマンスを示した。本研究では,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。我々はエネルゴンが161Times$と8.4times$ジオ平均スピードアップを達成し、最大104times$と103times$エネルギー還元を達成することを示した。
論文参考訳（メタデータ） (2021-10-18T13:42:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。