論文の概要: Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers
- arxiv url: http://arxiv.org/abs/2603.08343v1
- Date: Mon, 09 Mar 2026 13:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.002975
- Title: Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers
- Title(参考訳): 注意出力予測の再考:効率的な変換器のための構造化アダマール変換
- Authors: Shubham Aggarwal, Lokendra Kumar,
- Abstract要約: マルチヘッドアテンションにおける高密度出力プロジェクションをパラメータフリーのWalsh Hadamard変換に置き換えることを提案する。
異なるモデルサイズにわたって、この構造的置換は、下流タスクのパフォーマンスが同等またはわずかに優れていることを実証する。
本研究では, 構造化アダマールモデルを用いて, FLOPと比較して高い検証損失曲線を示し, トレーニング中の計算利用がより良好であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dense output projection in multi-head attention scales quadratically with model dimension, contributing significantly to parameter count, memory footprint, and inference cost. We propose replacing this projection with a fixed, parameter-free Walsh Hadamard Transform followed by a lightweight learnable affine rescaling, eliminating approximately 25 percent of attention parameters per block while preserving global cross head interaction through an orthogonal, norm-preserving transformation. Across different model sizes, we demonstrate that this structured substitution maintains comparable or slightly superior downstream task performance on standard benchmarks, while achieving up to 7 percent aggregate parameter reduction, 8.9 percent peak memory savings, and 6.6 percent throughput improvement at scale, with efficiency gains growing monotonically with model size, batch size, and sequence length. Interestingly, we observe that structured Hadamard-based models exhibit a steeper validation loss curve relative to training FLOPs compared to their dense counterparts, suggesting more favorable compute utilization during training.
- Abstract(参考訳): マルチヘッドアテンションにおける高密度出力プロジェクションは、モデル次元と2次的にスケールし、パラメータ数、メモリフットプリント、推論コストに大きく貢献する。
本稿では,このプロジェクションをパラメータフリーのWalsh Hadamard変換に置き換え,さらに軽量な学習可能なアフィン再スケーリングによりブロック当たりの注目パラメータの約25%を排除し,直交ノルム保存変換によるグローバルなクロスヘッドインタラクションを保ちながら,このプロジェクションをパラメータフリーのWalsh Hadamard変換に置き換えることを提案する。
モデルサイズによって、この構造化された置換は、標準ベンチマークにおいて同等またはわずかに優れたダウンストリームタスク性能を維持しつつ、最大7%の集約パラメータ削減、8.9%のピークメモリ削減、6.6%のスループット向上を実現し、モデルサイズ、バッチサイズ、シーケンス長で単調に成長する。
興味深いことに、構造化されたアダマールモデルでは、より密集したFLOPと比較して、より急激な検証損失曲線が示され、トレーニング中により有利な計算利用が期待できる。
関連論文リスト
- JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation [46.64215658042213]
補助埋め込みテーブルから得られる変調ベクトルを用いてトランスフォーマー層を拡大するジョイント・トケン(JTok)とジョイント・トケン(JTok-M)の混合を導入する。
これらのベクトルは、軽量な要素演算によってバックボーンを変調し、無視可能なFLOPのオーバーヘッドを発生させる。
我々のアプローチは、検証損失を継続的に減らし、ダウンストリームタスクのパフォーマンスを大幅に改善します。
論文 参考訳(メタデータ) (2026-01-31T16:15:18Z) - EdgeFlex-Transformer: Transformer Inference for Edge Devices [2.1130318406254074]
視覚変換器(ViT)の圧縮・高速化を目的とした軽量で効果的な多段最適化パイプラインを提案する。
本手法は,アクティベーションプロファイリング,メモリ対応プルーニング,選択的混合精度実行,アクティベーション対応量子化(AWQ)を組み合わせることで,コストのかかるリトレーニングやタスク固有の微調整を必要とせずに,モデルのメモリフットプリントを削減する。
CIFAR-10の実験では、完全に最適化されたモデルはピークメモリ使用量の76%削減と6倍のレイテンシを実現し、元のFP32ベースラインと比較して精度を維持または改善している。
論文 参考訳(メタデータ) (2025-12-17T21:45:12Z) - Share Your Attention: Transformer Weight Sharing via Matrix-based Dictionary Learning [6.346469177254699]
本稿ではトランス層間における重み共有の構造化フレームワークを提案する。
CNNにおける辞書学習に着想を得て,トランスフォーマー層間の重み共有を構造化するためのフレームワークを提案する。
提案手法は,アテンション投影行列を共有辞書原子に分解し,アテンションモジュールのパラメータを66.7%削減する。
論文 参考訳(メタデータ) (2025-08-06T16:06:43Z) - Entropy Adaptive Decoding: Dynamic Model Switching for Efficient Inference [0.0]
本稿では,効率的な言語モデル推論のための新しいアプローチであるEntropy Adaptive Decoding (EAD)を提案する。
EADは予測の不確実性に基づいて、異なるサイズのモデル間で切り替える。
異なるモデルファミリー間で顕著な効率向上を示す。
論文 参考訳(メタデータ) (2025-02-05T22:15:21Z) - Tensor Product Attention Is All You Need [61.3442269053374]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
TPAに基づいて,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Isomorphic Pruning for Vision Models [56.286064975443026]
構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。
Isomorphic Pruningは、ネットワークアーキテクチャの範囲で有効性を示すシンプルなアプローチである。
論文 参考訳(メタデータ) (2024-07-05T16:14:53Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。