論文の概要: Adaptive parameter-efficient fine-tuning via Hessian-informed subset selection
- arxiv url: http://arxiv.org/abs/2505.12579v1
- Date: Sun, 18 May 2025 23:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.319281
- Title: Adaptive parameter-efficient fine-tuning via Hessian-informed subset selection
- Title(参考訳): Hessian-informed subset selectionによる適応パラメータ効率微調整
- Authors: Shiyun Xu, Zhiqi Bu,
- Abstract要約: 細調整モデルに対するHessian-informedアプローチを提案する。
AdaPEFTは様々なタスクやモデルに適応し、選択されたサブセットはトレーニングの地平線とモデルサイズを経験的に移動する。
- 参考スコア(独自算出の注目度): 8.885727065823156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) is a highly effective approach for adapting large pre-trained models to downstream tasks with minimal computational overhead. At the core, PEFT methods freeze most parameters and only trains a small subset (say $<0.1\%$ of total parameters). Notably, different PEFT methods select different subsets, resulting in varying levels of performance. This variation prompts a key question: how to effectively select the most influential subset to train? We formulate the subset selection as a multi-task problem: maximizing the performance and minimizing the number of trainable parameters. We leverage a series of transformations -- including $\epsilon$-constraint method and second-order Taylor approximation -- to arrive at the classical 0-1 knapsack problem, which we solve through the lens of Pareto optimality. Consequently, we propose AdaPEFT, a Hessian-informed PEFT that adapts to various tasks and models, in which the selected subset empirically transfers across training horizons and model sizes.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)は、計算オーバーヘッドを最小限に抑えるために、大規模な事前学習されたモデルを下流のタスクに適用するための非常に効果的な手法である。
中心となるPEFTメソッドは、ほとんどのパラメータを凍結し、小さなサブセットのみをトレーニングする(例えば、合計パラメータの$<0.1\%$)。
特に、異なるPEFTメソッドは異なるサブセットを選択し、様々なレベルのパフォーマンスをもたらす。
トレーニングに最も影響力のあるサブセットを効果的に選択する方法?
マルチタスク問題としてサブセット選択を定式化し、性能を最大化し、トレーニング可能なパラメータの数を最小化する。
我々は、$\epsilon$-constraint法や2階テイラー近似を含む一連の変換を利用して、古典的な 0-1 knapsack 問題に到達し、パレート最適性のレンズによって解決する。
その結果,Hessian-informed PEFT である AdaPEFT を提案する。
関連論文リスト
- VectorFit : Adaptive Singular & Bias Vector Fine-Tuning of Pre-trained Foundation Models [0.8875650122536799]
本稿では,VectorFitを紹介する。VectorFitは,その特異ベクトルとバイアスを適応的にトレーニングすることで,$W$に埋め込まれた既存の知識を効率的に活用する。
この方法では、$W$の構造的および変換的性質を利用することで、完全な微調整に匹敵する高階インクリメンタルウェイト行列が$Delta W$となることが示される。
論文 参考訳(メタデータ) (2025-03-25T10:36:27Z) - Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training [44.48966200270378]
First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。
本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。
我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
論文 参考訳(メタデータ) (2025-02-05T20:47:44Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models [18.877891285367216]
我々はパラメータの重要度を連続的に計算する新しい選択型PEFT法である$textID3$を紹介した。
解析的に、$textID3$は勾配更新数を2倍に減らし、計算効率が向上することを示した。
論文 参考訳(メタデータ) (2024-08-26T17:58:53Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。
テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。
LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文 参考訳(メタデータ) (2024-02-18T01:20:00Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。
特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。
提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文 参考訳(メタデータ) (2022-07-07T04:42:54Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。