Fugu-MT 論文翻訳(概要): Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models

論文の概要: Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models

arxiv url: http://arxiv.org/abs/2408.14470v1
Date: Mon, 26 Aug 2024 17:58:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 13:02:15.434432
Title: Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models
Title（参考訳）: 大規模言語モデルのパラメータ効率の良い微調整のためのステップバイステップアンマキング
Authors: Aradhye Agarwal, Suhas K Ramesh, Ayan Sengupta, Tanmoy Chakraborty,
Abstract要約: パラメータ効率細調整(PEFT)のクラスは、モデルのパラメータのごく一部だけを選択的に微調整することで、計算上の課題を軽減することを目的としている。我々はパラメータの重要度を連続的に計算し,パラメータを動的にアンマスクする新しいPEFT法である$textID3$を紹介した。解析的に、$textID3$は勾配更新数を2倍に減らし、計算効率が向上することを示した。
参考スコア（独自算出の注目度）: 18.877891285367216
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning large language models (LLMs) on downstream tasks requires substantial computational resources. A class of parameter-efficient fine-tuning (PEFT) aims to mitigate these computational challenges by selectively fine-tuning only a small fraction of the model parameters. Although computationally efficient, these techniques often fail to match the performance of fully fine-tuned models, primarily due to inherent biases introduced during parameter selection. Traditional selective PEFT techniques use a fixed set of parameters based on a predefined budget (a process also known as unmasking), failing to capture parameter importance dynamically and often ending up exceeding the budget. We introduce $\text{ID}^3$, a novel selective PEFT method that calculates parameter importance continually and dynamically unmasks parameters by balancing exploration and exploitation in parameter selection. Our empirical study on 15 tasks spanning natural language understanding and generative tasks demonstrates the effectiveness of our method compared to fixed-masking-based PEFT techniques. We analytically show that $\text{ID}^3$ reduces the number of gradient updates by a factor of two, enhancing computational efficiency. $\text{ID}^3$ is robust to random initialization of neurons and, therefore, can be seamlessly integrated into existing additive and reparametrization-based PEFT modules such as adapters and LoRA for dynamic sparsification.
Abstract（参考訳）: 下流タスク上での微調整大型言語モデル(LLM)は、かなりの計算資源を必要とする。パラメータ効率細調整(PEFT)のクラスは、モデルパラメータのごく一部だけを選択的に微調整することで、これらの計算課題を軽減することを目的としている。計算効率は良いが、これらの手法は、パラメータ選択時に導入された固有のバイアスのため、完全に調整されたモデルの性能にマッチしないことが多い。従来の選択的PEFT技術は、事前に定義された予算(アンマスキングと呼ばれるプロセス)に基づいてパラメータの固定セットを使用し、パラメータの重要性を動的に捉えず、しばしば予算を超える結果になる。パラメータ選択における探索と利用のバランスをとることでパラメータの重要度を連続的に動的に解き放つ新しいPEFT法である$\text{ID}^3$を導入する。自然言語理解と生成タスクにまたがる15のタスクに関する実証的研究は,固定マスキングに基づくPEFT手法と比較して,本手法の有効性を実証する。解析的に、$\text{ID}^3$は勾配更新数を2倍に減らし、計算効率が向上することを示した。 $\text{ID}^3$ はニューロンのランダム初期化に対して堅牢であるため、動的スパース化のためにアダプタやLoRAのような既存の加法および再パラメータ化に基づくPEFTモジュールにシームレスに統合することができる。

関連論文リスト

High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。 textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文参考訳（メタデータ） (2026-01-12T13:06:17Z)
TS-PEFT: Token-Selective Parameter-Efficient Fine-Tuning with Learnable Threshold Gating [8.102270371993411]
本稿では,関数 S が位置指標のサブセットにPEFT を選択的に適用する Token-Selective PEFT (TS-PEFT) という新しいパラダイムを提案する。実験の結果,すべての指標に対するPEFTの非差別的適用は過剰であるだけでなく,非生産的である可能性が示唆された。
論文参考訳（メタデータ） (2025-11-20T08:41:20Z)
FPS: Feedforward-based Parameter Selection For Efficient Fine-Tuning [10.272085741815921]
本稿では,FPS(Feedforward-based Selection)を提案する。 FPSは、その大きさと対応する入力アクティベーションの産物によってパラメータをランク付けし、事前訓練された知識と下流のデータの両方を活用する。 FPSは最先端のメソッドに匹敵するパフォーマンスを実現し、ピークメモリ使用量を9倍近く削減した。
論文参考訳（メタデータ） (2025-10-31T10:44:16Z)
Optuna vs Code Llama: Are LLMs a New Paradigm for Hyperparameter Tuning? [42.362388367152256]
大規模言語モデル(LLM)は、LoRAを使用してパラメータ効率の良いCode Llamaを微調整するために使用される。提案手法は,演算オーバーヘッドを著しく低減しつつ,ルート平均角誤差(RMSE)の点で競争力や優位性を実現する。
論文参考訳（メタデータ） (2025-04-08T13:15:47Z)
Sparsity May Be All You Need: Sparse Random Parameter Adaptation [7.269130161558109]
アライメントとタスク適応のための大規模言語モデルの完全な微調整は、モデルのサイズが大きくなるにつれて、極めて高価になっている。そこで本研究では,トレーニング対象のモデルパラメータのごく一部をランダムに選択することで,トレーニング可能なパラメータの数を減らすことを提案する。
論文参考訳（メタデータ） (2025-02-21T22:23:16Z)
Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文参考訳（メタデータ） (2024-12-18T04:14:35Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
BIPEFT: Budget-Guided Iterative Search for Parameter Efficient Fine-Tuning of Large Pretrained Language Models [63.52035708182815]
自動PEFT(BIPEFT)のための新しいBudget-Guided Iterative Search戦略を提案する。 BIPEFTはバイナリモジュールとランク次元検索空間をアンタングルするために,新たな反復探索方式を採用している。公開ベンチマークの大規模な実験は、パラメータ予算の低い下流タスクにおいて、BIPEFTの優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T18:50:46Z)
Propulsion: Steering LLM with Tiny Fine-Tuning [0.0]
本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
論文参考訳（メタデータ） (2024-09-17T06:51:59Z)
Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文参考訳（メタデータ） (2024-07-08T12:32:51Z)
ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文参考訳（メタデータ） (2024-05-30T17:26:02Z)
LoRA-SP: Streamlined Partial Parameter Adaptation for Resource-Efficient Fine-Tuning of Large Language Models [7.926974917872204]
LoRA-SPはランダム化半選択パラメータ凍結を利用した新しい手法である。 LoRA-SPは、モデル性能を損なうことなく、計算とメモリの要求を大幅に削減する。
論文参考訳（メタデータ） (2024-02-28T06:50:10Z)
End-to-End Learning for Fair Multiobjective Optimization Under Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文参考訳（メタデータ） (2024-02-12T16:33:35Z)
Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文参考訳（メタデータ） (2023-10-19T15:13:58Z)
Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文参考訳（メタデータ） (2023-05-26T08:44:42Z)
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2023-03-18T22:36:25Z)
Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。 Sensuous-Aware Fine-Tuning (SPT) スキーム。 SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文参考訳（メタデータ） (2023-03-15T12:34:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。