Fugu-MT 論文翻訳(概要): Head-wise Shareable Attention for Large Language Models

論文の概要: Head-wise Shareable Attention for Large Language Models

arxiv url: http://arxiv.org/abs/2402.11819v1
Date: Mon, 19 Feb 2024 04:19:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 18:27:49.345767
Title: Head-wise Shareable Attention for Large Language Models
Title（参考訳）: 大規模言語モデルのための頭部共有型注意
Authors: Zouying Cao, Yifei Yang, Hai Zhao
Abstract要約: 大きな言語モデル(LLM)は膨大な数のパラメータに悩まされており、エッジデバイスへのデプロイメントを制限している。ウェイトシェアリングは、ウェイト再利用を促進する有望なソリューションのひとつで、メモリ使用量を効果的に削減し、パフォーマンスを低下させる。我々は、大きな言語モデルに対して、textit$textbfhead-wiseの共有可能な注意を向ける。
参考スコア（独自算出の注目度）: 63.973142426228016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) suffer from huge number of parameters, which restricts their deployment on edge devices. Weight sharing is one promising solution that encourages weight reuse, effectively reducing memory usage with less performance drop. However, current weight sharing techniques primarily focus on small-scale models like BERT and employ coarse-grained sharing rules, e.g., layer-wise. This becomes limiting given the prevalence of LLMs and sharing an entire layer or block obviously diminishes the flexibility of weight sharing. In this paper, we present a perspective on $\textit{$\textbf{head-wise shareable attention for large language models}$}$. We further propose two memory-efficient methods that share parameters across attention heads, with a specific focus on LLMs. Both of them use the same dynamic strategy to select the shared weight matrices. The first method directly reuses the pre-trained weights without retraining, denoted as $\textbf{DirectShare}$. The second method first post-trains with constraint on weight matrix similarity and then shares, denoted as $\textbf{PostShare}$. Experimental results reveal our head-wise shared models still maintain satisfactory capabilities, demonstrating the feasibility of fine-grained weight sharing applied to LLMs.
Abstract（参考訳）: 大きな言語モデル(LLM)は膨大な数のパラメータに悩まされており、エッジデバイスへのデプロイメントを制限する。ウェイトシェアリングは、ウェイト再利用を促進する有望なソリューションのひとつで、メモリ使用量を効果的に削減し、パフォーマンスを低下させる。しかし、現在の重み共有技術は主にBERTのような小規模モデルに焦点を合わせ、層単位で粗い粒度の共有ルールを採用する。 LLMが普及し、レイヤ全体やブロックの共有が明らかに重量共有の柔軟性を低下させるため、これは制限となる。本稿では、大言語モデルに対する$\textit{$\textbf{head-wise Shareable attention for large language model}$}$について述べる。さらに,注意ヘッド間でパラメータを共有する2つのメモリ効率のよい手法を提案する。どちらも共有重み行列を選択するのに同じ動的戦略を用いる。最初の方法は、トレーニングせずにトレーニング済みのウェイトを直接再利用し、$\textbf{DirectShare}$と表記する。 2つ目の方法は、まず重み行列の類似性に制約を課し、次に共有し、$\textbf{PostShare}$と表記する。実験結果から, 頭部共有モデルは良好な機能を維持しており, LLMに適用した微細な重量共有の実現可能性を示している。

関連論文リスト

Kernelized Sparse Fine-Tuning with Bi-level Parameter Competition for Vision Models [80.50996301430108]
スパースチューニングは、下流タスクに最も関係のある重みだけを調整することで、顕著なパフォーマンスを達成する。上述の制限を克服する一段法SNELLAを提案する。 SNELLAは低メモリ使用量でSOTA性能を達成する。
論文参考訳（メタデータ） (2025-10-28T03:39:18Z)
Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation [45.72492804683268]
大規模言語モデル(LLM)は目覚ましい将来性を示しているが、従来の微調整によって継続的に改善することは困難である。本稿では,多種多様なLCMから知識を適応的に選択・集約し,単一のより強力なモデルを構築するフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-28T16:24:50Z)
Delta Decompression for MoE-based LLMs Compression [22.144081182788394]
D2$-MoEは、MoE LLMのパラメータを減らすための新しいデルタ圧縮圧縮機である。我々はそれらの重みを共有基底重みとユニークなデルタ重みに分解する。実験では、私たちのアプローチの優位性を強調し、13%以上のパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2025-02-24T16:32:22Z)
Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression [5.206085750261924]
大規模言語モデル(LLM)は、推論においてかなりの量のメモリストレージを必要とする。本稿では,特異値分解を伴う異なる層間のパラメータ共有について検討する。総合的な実験により、Basis Sharingは最先端のSVDベースの圧縮アプローチより優れていることが示された。
論文参考訳（メタデータ） (2024-10-02T14:30:02Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文参考訳（メタデータ） (2024-08-07T04:20:28Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark [46.72960840801211]
Mixture-of-Experts(MoE)アプローチは,大規模言語モデル(LLM)を拡張可能な方法を提供する MoEは大きなメモリオーバーヘッドに悩まされており、モデル圧縮技術を必要とする。本稿では,MoEブロックから個々の線形重みまで,粗さから細粒度まで,いくつかのMoE構造を考慮した量子化について検討する。
論文参考訳（メタデータ） (2024-06-12T12:44:48Z)
CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts [41.80218225636109]
CuMoは、より小さなモデルと同様の推論コストを維持しながら、トレーニング中のモデルのスケーラビリティを改善します。 CuMoは視覚エンコーダとコネクタの両方にスパースゲートのMixture-of-Expertsブロックを組み込んでいる。 CuMoのコードとモデルの重み付けはhttps://github.com/SHI-Labs/CuMoでオープンソース化されている。
論文参考訳（メタデータ） (2024-05-09T17:37:20Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models [7.485068491216164]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。本稿では,各入力チャネル内の量子化グループを生成する簡易かつ効果的な手法である,IC単位の量子化を提案する。
論文参考訳（メタデータ） (2023-09-27T09:48:31Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。