Fugu-MT 論文翻訳(概要): Effective and Parameter-Efficient Reusing Fine-Tuned Models

論文の概要: Effective and Parameter-Efficient Reusing Fine-Tuned Models

arxiv url: http://arxiv.org/abs/2310.01886v1
Date: Tue, 3 Oct 2023 08:39:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 16:56:38.702346
Title: Effective and Parameter-Efficient Reusing Fine-Tuned Models
Title（参考訳）: ファインチューニングモデルの有効性とパラメータ効率
Authors: Weisen Jiang and Baijiong Lin and Han Shi and Yu Zhang and and Zhenguo Li and James T. Kwok
Abstract要約: 本稿では, PERU(Reusing)ファインチューニングモデルに対する効率的な手法を提案する。 PerU-FFTとPERU-LoRAは、既存の再利用モデル手法よりも大きなマージンで優れている。
参考スコア（独自算出の注目度）: 65.7197237630917
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many pre-trained large-scale models provided online have become highly effective in transferring to downstream tasks. At the same time, various task-specific models fine-tuned on these pre-trained models are available online for public use. In practice, as collecting task-specific data is labor-intensive and fine-tuning the large pre-trained models is computationally expensive, one can reuse task-specific finetuned models to deal with downstream tasks. However, using a model per task causes a heavy burden on storage and serving. Recently, many training-free and parameter-efficient methods have been proposed for reusing multiple fine-tuned task-specific models into a single multi-task model. However, these methods exhibit a large accuracy gap compared with using a fine-tuned model per task. In this paper, we propose Parameter-Efficient methods for ReUsing (PERU) fine-tuned models. For reusing Fully Fine-Tuned (FFT) models, we propose PERU-FFT by injecting a sparse task vector into a merged model by magnitude pruning. For reusing LoRA fine-tuned models, we propose PERU-LoRA use a lower-rank matrix to approximate the LoRA matrix by singular value decomposition. Both PERUFFT and PERU-LoRA are training-free. Extensive experiments conducted on computer vision and natural language process tasks demonstrate the effectiveness and parameter-efficiency of the proposed methods. The proposed PERU-FFT and PERU-LoRA outperform existing reusing model methods by a large margin and achieve comparable performance to using a fine-tuned model per task.
Abstract（参考訳）: オンラインで提供される多くの事前訓練された大規模モデルは、下流タスクへの転送に非常に効果的である。同時に、これらの事前訓練されたモデルに微調整された様々なタスク特化モデルがオンラインで公開されている。実際、タスク固有のデータの収集は労働集約的であり、大きな事前学習されたモデルには計算コストがかかるため、ダウンストリームタスクを扱うためにタスク固有の微調整モデルを再利用することができる。しかし、1つのタスクにモデルを使用することで、ストレージとサービスに重荷がかかる。近年,複数の微調整タスク固有モデルを単一マルチタスクモデルに再利用するために,学習自由かつパラメータ効率のよい多くの手法が提案されている。しかし,これらの手法はタスク毎の微調整モデルに比べて精度の差が大きい。本稿では,パラメータ効率のよい再使用(PERU)モデルを提案する。完全細調整(FFT)モデルを再利用するために,スパースタスクベクトルを大まかにプラニングすることでPERU-FFTを提案する。 LoRA微調整モデルを再利用するために,低ランク行列を用いて特異値分解によりLoRA行列を近似するPERU-LoRAを提案する。 PERUFFTとPERU-LoRAはどちらも無トレーニングである。コンピュータビジョンと自然言語処理タスクに関する広範な実験により,提案手法の有効性とパラメータ効率が実証された。提案したPERU-FFTとPERU-LoRAは、既存の再利用モデル手法を大きなマージンで上回り、タスク毎の微調整モデルと同等の性能を達成する。

関連論文リスト

Merging Smarter, Generalizing Better: Enhancing Model Merging on OOD Data [16.462869377794316]
マルチタスク学習(MTL)は、さまざまなタスクデータセットのモデルを同時にトレーニングして、共通の機能を利用する。近年の研究では、複数の独立モデルパラメータをMTLの統一モデルにマージする努力が続けられている。 LwPTV (Layer-wise Pruning Task Vector) を提案する。
論文参考訳（メタデータ） (2025-06-10T11:34:23Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
MergeBench: A Benchmark for Merging Domain-Specialized LLMs [19.49737955489798]
MergeBenchは、スケールでのモデルマージを評価するために設計された評価スイートである。 2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルの上に構築されている。マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文参考訳（メタデータ） (2025-05-16T04:02:55Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。 WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-29T07:16:31Z)
MIRA: A Method of Federated MultI-Task Learning for LaRge LAnguage Models [29.655807841018497]
大規模言語モデル(LLM)の微調整手法を提案する。提案手法は,各クライアントモデルの構造を利用して,他のクライアントのタスクやデータ分散を考慮した学習手法を実現する。実験結果は,異なるデータセットとモデルを用いて,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-20T22:24:40Z)
MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts [6.245113492272563]
Mixture of Dyadic Experts (MoDE) は効率的なマルチタスク適応のための新しい設計である。我々の設計はよりきめ細かい混合を可能にし、それによってモデルの複数のタスクを共同で処理する能力を高めます。
論文参考訳（メタデータ） (2024-08-02T18:05:10Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Representation Surgery for Multi-Task Model Merging [57.63643005215592]
マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
論文参考訳（メタデータ） (2024-02-05T03:39:39Z)
Concrete Subspace Learning based Interference Elimination for Multi-task Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文参考訳（メタデータ） (2023-12-11T07:24:54Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。