論文の概要: Progtuning: Progressive Fine-tuning Framework for Transformer-based Language Models
- arxiv url: http://arxiv.org/abs/2506.21119v1
- Date: Thu, 26 Jun 2025 09:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.039271
- Title: Progtuning: Progressive Fine-tuning Framework for Transformer-based Language Models
- Title(参考訳): Progtuning: トランスフォーマーに基づく言語モデルのためのプログレッシブな微調整フレームワーク
- Authors: Xiaoshuang Ji, Zhendong Zhao, Xiaojun Chen, Xin Zhao, Zeyao Liu,
- Abstract要約: 本稿では,トランスフォーマーに基づく言語モデルに対するプログレッシブラーニングと組み合わせた,新しい微調整フレームワークProgtuningを提案する。
プログチューニングは、コントリビューションに基づいて更新されたトランスフォーマーブロックの数を徐々に減少させる。
パラメータ効率のよい微調整法で高い適応性を示し、様々な適応シナリオで優れた性能を示す。
- 参考スコア(独自算出の注目度): 6.395297559271142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning is a promising technique for leveraging Transformer-based language models in downstream tasks. As model sizes continue to grow, updating all model parameters becomes increasingly costly. Parameter-efficient fine-tuning methods effectively address this issue by selectively updating a small subset of parameters. However, fine-tuning and most existing parameter-efficient fine-tuning methods require updating the same number of parameters as the initial size, ignoring the unequal contribution across Transformer blocks and leading to extremely inefficient allocation of computing resources. In this paper, we propose Progtuning, the novel fine-tuning framework combined with progressive learning for Transformer-based language models. Specifically, Progtuning progressively reduces the number of updated transformer blocks based on the contribution. Remarkably, Progtuning optimizes resource allocation and reduces the number of updated parameters by approximately 25\%, while still maintaining competitive performance. And it also exhibits high adaptability with parameter-efficient fine-tuning methods, demonstrating excellent performance across various adaptation scenarios.
- Abstract(参考訳): ファインチューニングは、下流タスクでTransformerベースの言語モデルを活用するための有望なテクニックである。
モデルのサイズが大きくなるにつれて、モデルパラメータの更新はますますコストがかかります。
パラメータ効率の良い微調整手法は、パラメータの小さなサブセットを選択的に更新することでこの問題に効果的に対処する。
しかし、ファインチューニングと既存のパラメータ効率の高いファインチューニング手法では、初期サイズと同じ数のパラメータを更新し、トランスフォーマーブロック間の不平等な寄与を無視し、計算資源の極端に非効率な割り当てをもたらす必要がある。
本稿では,トランスフォーマーに基づく言語モデルに対するプログレッシブラーニングと組み合わせた,新しいファインチューニングフレームワークであるProgtuningを提案する。
具体的には、Progtuningはコントリビューションに基づいて、更新されたトランスフォーマーブロックの数を徐々に削減する。
注目すべきは、Progtuningはリソース割り当てを最適化し、競合性能を維持しながら、更新されたパラメータの数を約25倍削減する。
また、パラメータ効率のよい微調整手法で高い適応性を示し、様々な適応シナリオで優れた性能を示す。
関連論文リスト
- LoR2C : Low-Rank Residual Connection Adaptation for Parameter-Efficient Fine-Tuning [6.5384187503681375]
本稿では,LoR2Cと呼ばれるパラメータ効率の高いファインチューニング手法を提案する。
LoR2Cはモデル層内の低ランク行列との残差接続を導入している。
複数の自然言語理解および自然言語生成タスクの実験結果は、LoR2Cとその最適化された変種がパラメータのオーバーヘッドを著しく減少させることを示す。
論文 参考訳(メタデータ) (2025-03-01T17:42:57Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Parameter Efficient Adaptation for Image Restoration with Heterogeneous Mixture-of-Experts [52.39959535724677]
画像復元モデルの一般化を改善するための代替手法を提案する。
ローカル,グローバル,チャネル表現ベースをキャプチャするマルチブランチ設計のMixture-of-Experts (MoE) であるAdaptIRを提案する。
我々のAdaptIRは、単一劣化タスクにおける安定した性能を実現し、8時間間、微調整はわずか0.6%のパラメータしか持たず、ハイブリッド劣化タスクにおいて優れる。
論文 参考訳(メタデータ) (2023-12-12T14:27:59Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Jointly Reparametrized Multi-Layer Adaptation for Efficient and Private
Tuning [32.69028093984526]
本稿では,複数のトランス層にタスク固有のパラメータを導入する新しい言語トランスフォーマー微調整手法を提案する。
GLUEタスクの完全な微調整性能の5%以内で、タスク毎のパラメータは4,100にも満たない。
本手法は,プライバシ制約のトレーニングにおいて,最近のいくつかのファインタニング手法と比較して,最適あるいは同等のユーティリティを実現する。
論文 参考訳(メタデータ) (2023-05-30T17:55:06Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - Subformer: Exploring Weight Sharing for Parameter Efficiency in
Generative Transformers [16.88840622945725]
パラメータ効率の良いトランスフォーマーモデルであるSubformerを開発した。
機械翻訳、抽象的要約、および言語モデリングに関する実験は、サブフォーマーが大幅に少ないパラメータを使用してもトランスフォーマーを上回ることができることを示しています。
論文 参考訳(メタデータ) (2021-01-01T13:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。