Fugu-MT 論文翻訳(概要): TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs

論文の概要: TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs

arxiv url: http://arxiv.org/abs/2501.15674v1
Date: Sun, 26 Jan 2025 21:05:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.797045
Title: TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs
Title（参考訳）: TensorLLM:LLMにおけるマルチヘッドアテンションの強化と圧縮
Authors: Yuxuan Gu, Wuyang Zhou, Giorgos Iacovides, Danilo Mandic,
Abstract要約: マルチヘッドテンソル化プロセスとタッカー分解によるMHA圧縮を実現する新しいフレームワークを提案する。提案手法は,複数のベンチマークデータセットにまたがるLCMの推論能力を一貫して向上させることを実証する。提案手法は既存のFFNのみに基づく復調手法とシームレスに組み合わせることで,LLM推論性能のさらなる向上を実現することができることを示す。
参考スコア（独自算出の注目度）: 3.808154352665581
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The reasoning abilities of Large Language Models (LLMs) can be improved by structurally denoising their weights, yet existing techniques primarily focus on denoising the feed-forward network (FFN) of the transformer block, and can not efficiently utilise the Multi-head Attention (MHA) block, which is the core of transformer architectures. To address this issue, we propose a novel intuitive framework that, at its very core, performs MHA compression through a multi-head tensorisation process and the Tucker decomposition. This enables both higher-dimensional structured denoising and compression of the MHA weights, by enforcing a shared higher-dimensional subspace across the weights of the multiple attention heads. We demonstrate that this approach consistently enhances the reasoning capabilities of LLMs across multiple benchmark datasets, and for both encoder-only and decoder-only architectures, while achieving compression rates of up to $\sim 250$ times in the MHA weights, all without requiring any additional data, training, or fine-tuning. Furthermore, we show that the proposed method can be seamlessly combined with existing FFN-only-based denoising techniques to achieve further improvements in LLM reasoning performance.
Abstract（参考訳）: 大規模言語モデル(LLM)の推論能力は、その重みを構造的に認知することで改善できるが、既存の技術は主にトランスフォーマーブロックのフィードフォワードネットワーク(FFN)を認知することに焦点を当てており、トランスフォーマーアーキテクチャのコアであるマルチヘッドアテンション(MHA)ブロックを効率的に活用することはできない。この問題に対処するために,マルチヘッドテンソル化プロセスとタッカー分解によるMHA圧縮を行う,新しい直感的なフレームワークを提案する。これにより、マルチアテンションヘッドの重みにまたがる共有高次元部分空間を強制することにより、MHA重みの高次元構造化と圧縮を両立させることができる。このアプローチは、複数のベンチマークデータセットにわたるLCMの推論能力と、エンコーダのみとデコーダのみのアーキテクチャの両方に対して、MHA重みの最大250ドルまでの圧縮速度を、追加データやトレーニング、微調整を必要とせずに、一貫して向上させることを実証する。さらに,提案手法は既存のFFNのみに基づく復調手法とシームレスに組み合わせることで,LLM推論性能のさらなる向上を実現することができることを示す。

関連論文リスト

LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T22:39:54Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文参考訳（メタデータ） (2024-04-15T11:53:22Z)
CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文参考訳（メタデータ） (2023-10-24T03:08:58Z)
Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文参考訳（メタデータ） (2023-05-11T02:02:53Z)
Adaptive Dynamic Filtering Network for Image Denoising [8.61083713580388]
画像デノーミングネットワークでは、機能スケーリングは受動的フィールドサイズを拡大し、計算コストを削減するために広く利用されている。本稿では、動的畳み込みを用いて、高周波およびマルチスケール特徴の学習を改善することを提案する。我々は提案するDCBとAMDNetというMDCBを併用した効率的なデノベーションネットワークを構築した。
論文参考訳（メタデータ） (2022-11-22T06:54:27Z)
Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。 GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文参考訳（メタデータ） (2022-03-02T13:44:49Z)
Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。 AFNOは、演算子学習の原則的基礎に基づいている。 65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文参考訳（メタデータ） (2021-11-24T05:44:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。