論文の概要: TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs
- arxiv url: http://arxiv.org/abs/2501.15674v2
- Date: Thu, 15 May 2025 12:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 14:06:35.844275
- Title: TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs
- Title(参考訳): TensorLLM:LLMにおけるマルチヘッドアテンションの強化と圧縮
- Authors: Yuxuan Gu, Wuyang Zhou, Giorgos Iacovides, Danilo Mandic,
- Abstract要約: マルチヘッドテンソル化プロセスとタッカー分解によるMHA圧縮を実現する新しいフレームワークを提案する。
提案手法は,複数のベンチマークデータセットにまたがるLCMの推論能力を一貫して向上させることを実証する。
提案手法は既存のFFNのみに基づく復調手法とシームレスに組み合わせることで,LLM推論性能のさらなる向上を実現することができることを示す。
- 参考スコア(独自算出の注目度): 3.808154352665581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reasoning abilities of Large Language Models (LLMs) can be improved by structurally denoising their weights, yet existing techniques primarily focus on denoising the feed-forward network (FFN) of the transformer block, and can not efficiently utilise the Multi-head Attention (MHA) block, which is the core of transformer architectures. To address this issue, we propose a novel intuitive framework that, at its very core, performs MHA compression through a multi-head tensorisation process and the Tucker decomposition. This enables both higher-dimensional structured denoising and compression of the MHA weights, by enforcing a shared higher-dimensional subspace across the weights of the multiple attention heads. We demonstrate that this approach consistently enhances the reasoning capabilities of LLMs across multiple benchmark datasets, and for both encoder-only and decoder-only architectures, while achieving compression rates of up to $\sim 250$ times in the MHA weights, all without requiring any additional data, training, or fine-tuning. Furthermore, we show that the proposed method can be seamlessly combined with existing FFN-only-based denoising techniques to achieve further improvements in LLM reasoning performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は、その重みを構造的に認知することで改善できるが、既存の技術は主にトランスフォーマーブロックのフィードフォワードネットワーク(FFN)を認知することに焦点を当てており、トランスフォーマーアーキテクチャのコアであるマルチヘッドアテンション(MHA)ブロックを効率的に活用することはできない。
この問題に対処するために,マルチヘッドテンソル化プロセスとタッカー分解によるMHA圧縮を行う,新しい直感的なフレームワークを提案する。
これにより、マルチアテンションヘッドの重みにまたがる共有高次元部分空間を強制することにより、MHA重みの高次元構造化と圧縮を両立させることができる。
このアプローチは、複数のベンチマークデータセットにわたるLCMの推論能力と、エンコーダのみとデコーダのみのアーキテクチャの両方に対して、MHA重みの最大250ドルまでの圧縮速度を、追加データやトレーニング、微調整を必要とせずに、一貫して向上させることを実証する。
さらに,提案手法は既存のFFNのみに基づく復調手法とシームレスに組み合わせることで,LLM推論性能のさらなる向上を実現することができることを示す。
関連論文リスト
- Explicit Multi-head Attention for Inter-head Interaction in Large Language Models [70.96854312026319]
マルチヘッド明示的注意(Multi-head Explicit Attention、MEA)は、頭間相互作用を明示的にモデル化した、単純で効果的な注意法である。
MEAは事前トレーニングにおいて強い堅牢性を示し、より高速な収束につながる学習率を使用することを可能にします。
これにより、KVキャッシュメモリ使用率を50%削減できる実用的なキー値キャッシュ圧縮戦略が実現される。
論文 参考訳(メタデータ) (2026-01-27T13:45:03Z) - Multiscale Aggregated Hierarchical Attention (MAHA): A Game Theoretic and Optimization Driven Approach to Efficient Contextual Modeling in Large Language Models [0.0]
マルチスケール集約階層的注意(MAHA)は、階層的分解と数学的に厳密な集約を通じて注意機構を再構築する新しいアーキテクチャフレームワークである。
MAHAは、入力シーケンスを学習可能なダウンサンプリング演算子を介して階層スケールに動的に分割する。
実験的なFLOP解析により,4096のシークエンス長で計算コストが81%削減されたことが確認された。
論文 参考訳(メタデータ) (2025-12-16T21:27:21Z) - DLRREC: Denoising Latent Representations via Multi-Modal Knowledge Fusion in Deep Recommender Systems [0.6875312133832079]
大規模言語モデル(LLM)はリッチで高次元でノイズの多いマルチモーダルな特徴を生成する。
これらの機能を静的入力として扱うことで、コアレコメンデーションタスクから切り離すことができる。
我々は,多モーダルかつ協調的な知識を深く融合させ,表現を認知させるという,重要な洞察に基づいて構築された新しいフレームワークを紹介した。
論文 参考訳(メタデータ) (2025-11-29T18:57:42Z) - MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition [39.90876258237132]
Matryoshka Expression Learning (MRL)は、単一のモデルを複数のトークンの粒度にわたって動作させることによって、この問題に対処する。
MoME は MRL をベースとした音声認識用大規模言語モデルにスパース・ミックス・オブ・エクササイズ (MoE) を統合する新しいフレームワークである。
MoME は AVSR 、 ASR 、 VSR のタスクにまたがって最先端のパフォーマンスを実現するが、パラメータは大幅に少ない。
論文 参考訳(メタデータ) (2025-10-05T10:34:34Z) - When MLLMs Meet Compression Distortion: A Coding Paradigm Tailored to MLLMs [38.29061845878822]
マルチレベル特徴を適応的に保護し、下流タスクの異なる要求に適合するように設計されたMLLM(CoTAM)に適応した画像コーデックTAiloredを提案する。
MLLMタスクで同じ性能を維持しながら,最大35.99%の省力化を実現している。
論文 参考訳(メタデータ) (2025-09-29T04:07:52Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。
本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。
低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文 参考訳(メタデータ) (2024-04-15T11:53:22Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Adaptive Dynamic Filtering Network for Image Denoising [8.61083713580388]
画像デノーミングネットワークでは、機能スケーリングは受動的フィールドサイズを拡大し、計算コストを削減するために広く利用されている。
本稿では、動的畳み込みを用いて、高周波およびマルチスケール特徴の学習を改善することを提案する。
我々は提案するDCBとAMDNetというMDCBを併用した効率的なデノベーションネットワークを構築した。
論文 参考訳(メタデータ) (2022-11-22T06:54:27Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。