Fugu-MT 論文翻訳(概要): Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models

論文の概要: Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models

arxiv url: http://arxiv.org/abs/2410.11772v2
Date: Tue, 05 Nov 2024 05:13:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.896284
Title: Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models
Title（参考訳）: レイヤーワイズ重要事項:大規模言語モデルのパラメータ効率の良い微調整における性能向上のためのメモリ不足
Authors: Kai Yao, Penglei Gao, Lichun Li, Yuan Zhao, Xiaofeng Wang, Wei Wang, Jianke Zhu,
Abstract要約: Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。 ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
参考スコア（独自算出の注目度）: 19.163639128631534
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Parameter-Efficient Fine-Tuning (PEFT) methods have gained significant popularity for adapting pre-trained Large Language Models (LLMs) to downstream tasks, primarily due to their potential to significantly reduce memory and computational overheads. However, a common limitation in most PEFT approaches is their application of a uniform architectural design across all layers. This uniformity involves identical trainable modules and ignores the varying importance of each layer, leading to sub-optimal fine-tuning results. To overcome the above limitation and obtain better performance, we develop a novel approach, Importance-aware Sparse Tuning (IST), to fully utilize the inherent sparsity and select the most important subset of full layers with effective layer-wise importance scoring. The proposed IST is a versatile and plug-and-play technique compatible with various PEFT methods that operate on a per-layer basis. By leveraging the estimated importance scores, IST dynamically updates these selected layers in PEFT modules, leading to reduced memory demands. We further provide theoretical proof of convergence and empirical evidence of superior performance to demonstrate the advantages of IST over uniform updating strategies. Extensive experiments on a range of LLMs, PEFTs, and downstream tasks substantiate the effectiveness of our proposed method, showcasing IST's capacity to enhance existing layer-based PEFT methods. Our code is available at https://github.com/Kaiseem/IST.
Abstract（参考訳）: パラメータ効率の良いファインチューニング(PEFT)法は、主にメモリと計算オーバーヘッドを大幅に削減する可能性から、下流タスクに事前訓練された大規模言語モデル(LLM)を適用することで大きな人気を得ている。しかしながら、ほとんどのPEFTアプローチで共通する制限は、すべての層にまたがる一様アーキテクチャ設計の適用である。この均一性は、同一のトレーニング可能なモジュールを伴い、各レイヤのさまざまな重要性を無視し、最適以下の微調整結果をもたらす。上記の制限を克服し、性能を向上させるために、本手法であるImportance-Aware Sparse Tuning (IST)を開発した。提案した IST は多目的・プラグ・アンド・プレイ方式であり,様々なPEFT 法と互換性があり,層ごとの動作が可能である。推定された重要度スコアを活用することで、ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。さらに、一様更新戦略よりもISTの利点を実証するために、収束の理論的証明と優れた性能の実証的証明を提供する。 LLM,PEFT,下流タスクの広範囲にわたる実験により,提案手法の有効性を実証し,既存のレイヤベースPEFT手法の強化を目的としたISTの能力を示す。私たちのコードはhttps://github.com/Kaiseem/ISTで公開されています。

関連論文リスト

TuckA: Hierarchical Compact Tensor Experts for Efficient Fine-Tuning [83.93651411533533]
4つのキー特性を持つTucker Adaptation(TuckA)を導入する。我々は,ルータのパラメータサイズを$L$の係数で削減する,効率的なバッチレベルルーティング機構を開発した。自然言語理解、画像分類、数学的推論におけるベンチマーク実験は、TuckAの有効性を物語っている。
論文参考訳（メタデータ） (2025-11-10T09:03:16Z)
PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文参考訳（メタデータ） (2025-07-10T16:47:25Z)
PrunePEFT: Iterative Hybrid Pruning for Parameter-Efficient Fine-tuning of LLMs [8.52711842775914]
PEFT(Efficient Fine-Tuning)法は、訓練済み言語モデルにおいて、効率的かつ有望なアプローチとして登場した。本稿では,PEFT 戦略探索をプルーニング問題として定式化する新しい手法 PrunePEFT を提案する。
論文参考訳（メタデータ） (2025-06-09T09:32:58Z)
Optimizing Specific and Shared Parameters for Efficient Parameter Tuning [46.57365875007367]
微調整時の分布変化を効果的に緩和する新しいPETL法であるSaSを提案する。 SaSは低ランクプロジェクションを用いて、レイヤ間で共通の統計特性をキャプチャする。さまざまなダウンストリームタスク、いくつかのショット設定、ドメインの一般化の実験は、SaSがパフォーマンスを大幅に向上することを示した。
論文参考訳（メタデータ） (2025-04-04T13:43:54Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training [44.48966200270378]
First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
論文参考訳（メタデータ） (2025-02-05T20:47:44Z)
Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文参考訳（メタデータ） (2024-12-18T04:14:35Z)
Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study [3.5189934649278922]
GitHub Copilotのような大規模言語モデル(LLM)は、微調整なしで現実世界のタスクに苦労する。本稿では,LoRA, (IA)3, およびプロンプトチューニングを含む各種PEFT法について検討する。その結果,PEFT法は単体テスト生成のための完全微調整に匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2024-11-04T09:03:18Z)
Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models [24.62337386603331]
大規模マルチモーダルモデル(LMM)は、機械が世界と対話する方法に革命をもたらしている。下流タスクにLMMを適用するために,パラメータ効率細調整(PEFT)が普及している。本稿では,各チューニング戦略の長所と短所に着目し,これらのアプローチに典型的な効率性から焦点を移す。
論文参考訳（メタデータ） (2024-10-29T07:55:50Z)
BIPEFT: Budget-Guided Iterative Search for Parameter Efficient Fine-Tuning of Large Pretrained Language Models [63.52035708182815]
自動PEFT(BIPEFT)のための新しいBudget-Guided Iterative Search戦略を提案する。 BIPEFTはバイナリモジュールとランク次元検索空間をアンタングルするために,新たな反復探索方式を採用している。公開ベンチマークの大規模な実験は、パラメータ予算の低い下流タスクにおいて、BIPEFTの優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T18:50:46Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
Efficiency at Scale: Investigating the Performance of Diminutive Language Models in Clinical Tasks [2.834743715323873]
本稿では,臨床意思決定タスクにおけるPEFT法の適合性について検討する。分析の結果,ほとんどのPEFT手法の性能はタスクによって大きく異なることがわかった。臨床領域におけるPEFT法の有効性は明らかであり、特に低コストで社内の計算インフラで運用できる専門モデルでは顕著である。
論文参考訳（メタデータ） (2024-02-16T11:30:11Z)
PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。 8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文参考訳（メタデータ） (2024-01-20T20:25:17Z)
UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文参考訳（メタデータ） (2023-08-28T05:38:43Z)
Empirical Analysis of the Strengths and Weaknesses of PEFT Techniques for LLMs [1.867982979635437]
各種PEFT手法のベンチマークを行い、異なるデータスケールでモデル性能を評価する。一般的な信念とは対照的に、PEFT手法は低データシナリオにおいて完全なチューニングよりも遅く収束することを実証的に証明する。さらに,モデルのどの部分を訓練するかを選択的に選択することで,これらのPEFT手法をさらに最適化する。
論文参考訳（メタデータ） (2023-04-28T17:39:49Z)
UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文参考訳（メタデータ） (2021-10-14T17:40:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。