論文の概要: GenFT: A Generative Parameter-Efficient Fine-Tuning Method for Pretrained Foundation Models
- arxiv url: http://arxiv.org/abs/2506.11042v1
- Date: Wed, 21 May 2025 08:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.507338
- Title: GenFT: A Generative Parameter-Efficient Fine-Tuning Method for Pretrained Foundation Models
- Title(参考訳): GenFT:事前学習基礎モデルのための生成パラメータ効率の良いファインチューニング手法
- Authors: Baoquan Zhang, Guangning Xu, Michael. K. Ng,
- Abstract要約: Generative Fine-Tuning (GenFT) は、効率的な$Delta W$トレーニングのために$Delta W$から構造化された、転送可能な情報を抽出する新しい方法である。
VTAB-1K、FGVC、GLUEベンチマークの実験により、GenFTは最先端のPEFT法より優れていることが示された。
- 参考スコア(独自算出の注目度): 23.85784506399565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained Foundation Models (PFMs) have transformed numerous applications by enabling efficient adaptation to customized tasks. Parameter-Efficient Fine-Tuning (PEFT) has emerged as a resource-efficient alternative to full fine-tuning, especially leveraging reparameterized weights $\Delta W$ to adapt models for downstream tasks. However, a critical yet underexplored question remains: can we utilize well-pretrained weights $W_0$ to guide the update of task-specific $\Delta W$, avoiding inefficient training it from scratch? To end this, we propose Generative Parameter-Efficient Fine-Tuning (GenFT), a novel method that extracts structured, transferable information from $W_0$ for efficient $\Delta W$ training. To extract row and column structure information, GenFT applies row and column transformations to distill essential patterns from $W_0$. A tailored policy further decomposes $\Delta W$ into layer-shared and layer-specific components, balancing information reuse and individualized flexibility. GenFT is simple yet effective, achieving superior performance across CV and NLP tasks. Extensive experiments on VTAB-1K, FGVC, and GLUE benchmarks demonstrate that GenFT outperforms state-of-the-art PEFT methods, offering a new perspective for efficient model adaptation.
- Abstract(参考訳): Pretrained Foundation Models (PFM) は、カスタマイズされたタスクへの効率的な適応を可能にすることで、多くのアプリケーションを変革してきた。
パラメータ効率の良いファインチューニング(PEFT)はフル微調整に代わる資源効率の高い代替品として登場し、特に下流タスクのモデルに適応するために、パラメータ化重量$\Delta W$を活用する。
しかし、重大な未発見の疑問が残る: 十分に事前訓練されたウェイトを$W_0$で、タスク固有の$\Delta W$の更新をガイドし、非効率なトレーニングをスクラッチから避けられるか?
提案手法は,効率的な$\Delta W$トレーニングのために,$W_0$から構造化,転送可能な情報を抽出する新しい手法であるGenFTを提案する。
行および列構造情報を抽出するために、GenFTは行および列変換を適用して$W_0$から必須パターンを蒸留する。
調整されたポリシーは、さらに$\Delta W$をレイヤ共有およびレイヤ固有のコンポーネントに分解し、情報の再利用と個人の柔軟性のバランスをとる。
GenFTは単純だが有効であり、CVタスクとNLPタスクで優れたパフォーマンスを実現する。
VTAB-1K、FGVC、GLUEベンチマークの大規模な実験により、GenFTは最先端のPEFT法よりも優れており、効率的なモデル適応の新しい視点を提供する。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。