論文の概要: Optimizing Specific and Shared Parameters for Efficient Parameter Tuning
- arxiv url: http://arxiv.org/abs/2504.03450v1
- Date: Fri, 04 Apr 2025 13:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:47:39.295159
- Title: Optimizing Specific and Shared Parameters for Efficient Parameter Tuning
- Title(参考訳): 効率的なパラメータチューニングのための特定パラメータと共有パラメータの最適化
- Authors: Van-Anh Nguyen, Thanh-Toan Do, Mehrtash Harandi, Dinh Phung, Trung Le,
- Abstract要約: 微調整時の分布変化を効果的に緩和する新しいPETL法であるSaSを提案する。
SaSは低ランクプロジェクションを用いて、レイヤ間で共通の統計特性をキャプチャする。
さまざまなダウンストリームタスク、いくつかのショット設定、ドメインの一般化の実験は、SaSがパフォーマンスを大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 46.57365875007367
- License:
- Abstract: Foundation models, with a vast number of parameters and pretraining on massive datasets, achieve state-of-the-art performance across various applications. However, efficiently adapting them to downstream tasks with minimal computational overhead remains a challenge. Parameter-Efficient Transfer Learning (PETL) addresses this by fine-tuning only a small subset of parameters while preserving pre-trained knowledge. In this paper, we propose SaS, a novel PETL method that effectively mitigates distributional shifts during fine-tuning. SaS integrates (1) a shared module that captures common statistical characteristics across layers using low-rank projections and (2) a layer-specific module that employs hypernetworks to generate tailored parameters for each layer. This dual design ensures an optimal balance between performance and parameter efficiency while introducing less than 0.05% additional parameters, making it significantly more compact than existing methods. Extensive experiments on diverse downstream tasks, few-shot settings and domain generalization demonstrate that SaS significantly enhances performance while maintaining superior parameter efficiency compared to existing methods, highlighting the importance of capturing both shared and layer-specific information in transfer learning. Code and data are available at https://anonymous.4open.science/r/SaS-PETL-3565.
- Abstract(参考訳): 膨大なパラメータと大量のデータセットの事前トレーニングを備えたファンデーションモデルは、さまざまなアプリケーションで最先端のパフォーマンスを達成する。
しかし、計算オーバーヘッドが最小限であるダウンストリームタスクに効率よく適応することは、依然として課題である。
パラメータ効率変換学習(PETL)は、事前訓練された知識を保持しながら、パラメータの小さなサブセットだけを微調整することでこの問題に対処する。
本稿では,微調整時の分布変化を効果的に緩和する新しいPETL法であるSaSを提案する。
SaSは(1)低ランクなプロジェクションを用いてレイヤ間の共通統計特性をキャプチャする共有モジュールと(2)ハイパーネットを利用するレイヤ固有のモジュールを結合し、各レイヤに対して調整されたパラメータを生成する。
この二重設計により、性能とパラメータ効率の最適バランスが保証され、0.05%以上の追加パラメータを導入し、既存の手法よりも大幅にコンパクトになる。
多様な下流タスク、少数ショット設定、ドメイン一般化に関する広範な実験により、SaSは既存の手法よりも優れたパラメータ効率を維持しつつ、性能を著しく向上し、転送学習において共有情報と層固有の情報の両方をキャプチャすることの重要性を強調した。
コードとデータはhttps://anonymous.4open.science/r/SaS-PETL-3565で公開されている。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。