Fugu-MT 論文翻訳(概要): SUPERMERGE: An Approach For Gradient-Based Model Merging

論文の概要: SUPERMERGE: An Approach For Gradient-Based Model Merging

arxiv url: http://arxiv.org/abs/2412.10416v1
Date: Mon, 09 Dec 2024 20:03:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.541669
Title: SUPERMERGE: An Approach For Gradient-Based Model Merging
Title（参考訳）: SuperMerge: グラディエントベースのモデルマージのアプローチ
Authors: Haoyu Yang, Zheng Zhang, Saket Sathe,
Abstract要約: ChatGPT、Claude、LLaMAといった大規模な言語モデルは巨大なモノリシックで、何千ものタスクを同時にサポートする超能力を持っている。タスク固有のモデルを使用する場合の課題のひとつは、モデルが既存のタスクにすでにデプロイされている後、新しいタスクを解決するための漸進的な必要性である。 SuPERMERGEと呼ばれるモデルマージ方式を提案する。 SuPERMERGEは、自然言語処理やコンピュータビジョンタスクにおいて、既存のモデルマージ手法よりも優れていることを実験的に実証した。
参考スコア（独自算出の注目度）: 9.136320029568305
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models, such as ChatGPT, Claude, or LLaMA, are gigantic, monolithic, and possess the superpower to simultaneously support thousands of tasks. However, high-throughput applications often prefer smaller task-specific models because of their lower latency and cost. One challenge of using task-specific models is the incremental need for solving newer tasks after the model is already deployed for existing tasks. A straightforward solution requires fine-tuning the model again for both existing and new tasks, which is computationally expensive and time-consuming. To address this issue, we propose a model merging based approach called SUPERMERGE. SUPERMERGE is a gradient-based method to systematically merge several fine-tuned models trained on existing and new tasks. SUPERMERGE is designed to be lightweight and fast, and the merged model achieves similar performance to fully fine-tuned models on all tasks. Furthermore, we proposed a hierarchical model merging strategy to reduce the peak space requirement without sacrificing the performance of the merged model. We experimentally demonstrate that SUPERMERGE outperforms existing model merging methods on common natural language processing and computer vision tasks.
Abstract（参考訳）: ChatGPT、Claude、LLaMAといった大規模な言語モデルは巨大なモノリシックで、何千ものタスクを同時にサポートする超能力を持っている。しかし、高スループットアプリケーションは、レイテンシとコストが低いため、より小さなタスク特化モデルを好むことが多い。タスク固有のモデルを使用する場合の課題のひとつは、モデルが既存のタスクにすでにデプロイされている後、新しいタスクを解決するための漸進的な必要性である。単純なソリューションでは、既存のタスクと新しいタスクの両方でモデルを微調整する必要があります。そこで本研究では,SUPERMERGEと呼ばれるモデル統合手法を提案する。 SUPERMERGEは、既存のタスクと新しいタスクで訓練されたいくつかの微調整されたモデルを体系的にマージするための勾配に基づく手法である。 SUPERMERGEは軽量で高速に設計されており、マージモデルは全タスクで完全に微調整されたモデルと同じような性能を実現する。さらに,統合モデルの性能を犠牲にすることなく,ピーク時空間要求を低減できる階層型モデルマージ戦略を提案した。 SuPERMERGEは、自然言語処理やコンピュータビジョンタスクにおいて、既存のモデルマージ手法よりも優れていることを実験的に実証した。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
1bit-Merging: Dynamic Quantized Merging for Large Language Models [20.19975755949984]
texttt1bit-Mergingは、タスク固有のルーティングと1ビットの量子化されたタスクベクトルを統合し、パフォーマンスとストレージ効率のバランスをとる新しいフレームワークである。我々は,texttt1bit-Mergingが既存のメソッドと同等あるいは優れた性能を実現し,ストレージ要求を大幅に削減できることを実証した。
論文参考訳（メタデータ） (2025-02-15T09:47:50Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Why Train Everything? Tint a Single Layer for Multi-task Model Merging [17.496018757317824]
モデルマージは独立して微調整されたモデルを単一のマルチタスクモデルに統合し、ジョイントトレーニングの柔軟な代替手段を提供する。多くの既存のモデルマージ手法は、追加のタスク固有のコンポーネントを導入し、複雑さを増し、追加の修正を必要とする。単一のレイヤだけを更新することで、モデルマージを改善する軽量かつ高効率なアプローチであるModel Tintingを提案する。
論文参考訳（メタデータ） (2024-12-26T07:42:06Z)
A Model Is Not Built By A Single Prompt: LLM-Based Domain Modeling With Question Decomposition [4.123601037699469]
現実世界のドメインモデリングでは、エンジニアは通常複雑なタスクを簡単に解けるサブタスクに分解する。本稿では,開発者のモデリングプロセスに類似した質問分解によるLLMに基づくドメインモデリング手法を提案する。予備的な結果から,本手法は単発プロンプトによるプロンプトよりも優れていた。
論文参考訳（メタデータ） (2024-10-13T14:28:04Z)
What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。本研究は,大規模モデルマージの有用性を体系的に評価する。
論文参考訳（メタデータ） (2024-10-04T17:17:19Z)
PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
PLeaSと呼ばれるモデルをマージする2段階の新たなアルゴリズムを提案し、制約を緩和する。 PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。また、細調整されたドメインからデータを入手できないという難題に対処するために、我々のメソッドをどのように拡張できるかを実証する。
論文参考訳（メタデータ） (2024-07-02T17:24:04Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Arcee's MergeKit: A Toolkit for Merging Large Language Models [0.6374098147778188]
MergeKitは、任意のハードウェア上でモデルを効率的にマージするためのフレームワークである。これまで、何千ものモデルがオープンソースコミュニティによってマージされてきた。
論文参考訳（メタデータ） (2024-03-20T02:38:01Z)
Representation Surgery for Multi-Task Model Merging [57.63643005215592]
マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
論文参考訳（メタデータ） (2024-02-05T03:39:39Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
BYOM: Building Your Own Multi-Task Model For Free [69.63765907216442]
BYOM-FFTは完全微調整モデルのマージ用であり、BYOM-LoRAはLoRA微調整モデルのマージ用である。コンピュータビジョンと自然言語処理タスクの実験により、提案手法は既存のマージ手法よりも大きなマージ率で優れていることが示された。
論文参考訳（メタデータ） (2023-10-03T08:39:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。