Fugu-MT 論文翻訳(概要): PLeaS -- Merging Models with Permutations and Least Squares

論文の概要: PLeaS -- Merging Models with Permutations and Least Squares

arxiv url: http://arxiv.org/abs/2407.02447v2
Date: Thu, 27 Feb 2025 22:26:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:44.904464
Title: PLeaS -- Merging Models with Permutations and Least Squares
Title（参考訳）: PLeaS -- 置換と最小の正方形を持つモデルをマージする
Authors: Anshul Nasery, Jonathan Hayase, Pang Wei Koh, Sewoong Oh,
Abstract要約: PLeaSと呼ばれるモデルをマージする2段階の新たなアルゴリズムを提案し、制約を緩和する。 PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。また、細調整されたドメインからデータを入手できないという難題に対処するために、我々のメソッドをどのように拡張できるかを実証する。
参考スコア（独自算出の注目度）: 43.17620198572947
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The democratization of machine learning systems has made the process of fine-tuning accessible to practitioners, leading to a wide range of open-source models fine-tuned on specialized tasks and datasets. Recent work has proposed to merge such models to combine their functionalities. However, prior approaches are usually restricted to models that are fine-tuned from the same base model. Furthermore, the final merged model is typically required to be of the same size as the original models. In this work, we propose a new two-step algorithm to merge models -- termed PLeaS -- which relaxes these constraints. First, leveraging the Permutation symmetries inherent in the two models, PLeaS partially matches nodes in each layer by maximizing alignment. Next, PLeaS computes the weights of the merged model as a layer-wise Least Squares solution to minimize the approximation error between the features of the merged model and the permuted features of the original models. PLeaS allows a practitioner to merge two models sharing the same architecture into a single performant model of a desired size, even when the two original models are fine-tuned from different base models. We also demonstrate how our method can be extended to address a challenging scenario where no data is available from the fine-tuning domains. We demonstrate our method to merge ResNet and ViT models trained with shared and different label spaces, and show improvement over the state-of-the-art merging methods of up to 15 percentage points for the same target compute while merging models trained on DomainNet and fine-grained classification tasks. Our code is open-sourced at https://github.com/SewoongLab/PLeaS-Merging .
Abstract（参考訳）: 機械学習システムの民主化により、実践者にとって微調整のプロセスが利用できるようになる。最近の研究は、それらの機能を組み合わせるためにそのようなモデルを統合することを提案した。しかし、従来のアプローチは、通常同じベースモデルから微調整されたモデルに限られる。さらに、最終的なマージモデルは、通常、元のモデルと同じサイズでなければならない。本研究では、これらの制約を緩和するモデル(PLeaSと呼ばれる)をマージする2段階の新しいアルゴリズムを提案する。まず、2つのモデルに固有の置換対称性を利用し、PLeaSはアライメントを最大化することで各層のノードを部分的にマッチングする。次に、PLeaSは、マージモデルの重み付けをレイヤワイドな最小二乗解として計算し、マージモデルの特徴と元のモデルの置換された特徴との間の近似誤差を最小化する。 PLeaSは、2つのオリジナルのモデルが異なるベースモデルから微調整された場合でも、同じアーキテクチャを共有する2つのモデルを、望ましいサイズの1つのパフォーマンスモデルにマージすることを可能にする。また、細調整されたドメインからデータを入手できないという難題に対処するために、我々のメソッドをどのように拡張できるかを実証する。本研究では、共有ラベル空間と異なるラベル空間で訓練されたResNetとViTモデルをマージし、ドメインネットで訓練されたモデルときめ細かな分類タスクを併用しながら、同じターゲット計算に対して最大15ポイントの最先端マージ手法の改善を示す。私たちのコードはhttps://github.com/SewoongLab/PLeaS-Merging でオープンソース化されています。

関連論文リスト

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching [41.96482857947199]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。 LLMは通常、相当なモデルサイズを持ち、デプロイメントと推論において大きな課題をもたらします。そこで我々は, モデルモデルから層を戦略的に組み合わせたり, マージしたりすることで, モデルを圧縮するための新しい戦略を開発した。
論文参考訳（メタデータ） (2025-06-25T14:24:59Z)
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging [32.97010533998294]
スタイルベクトルの制御の下で任意のスタイルの画像を正確に生成できる、スタイルプロンプタブルな画像生成パイプラインを提案する。この設計に基づいて,複数のモデルを1つの汎用T2Iモデルに圧縮する,スコア蒸留に基づくモデルマージパラダイム(DMM)を提案する。実験により、DMMは複数の教師モデルからの知識をコンパクトに再構成し、制御可能な任意のスタイルの生成を実現することができることを示した。
論文参考訳（メタデータ） (2025-04-16T15:09:45Z)
AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization [86.8133939108057]
異種MLLMに適した新しいモデルマージ手法であるAdaMMSを提案する。提案手法は,マッピング,マージ,検索という3段階の課題に対処する。ラベル付きデータ無しで異種MLLMをマージできる最初のモデルマージ手法として、AdaMMSは様々なビジョンベンチマークで過去のモデルマージ手法より優れている。
論文参考訳（メタデータ） (2025-03-31T05:13:02Z)
Model Assembly Learning with Heterogeneous Layer Weight Merging [57.8462476398611]
モデル統合のための新しいパラダイムであるモデルアセンブリ学習(MAL)を紹介する。 MALは、様々なモデルのパラメータをオープンエンドモデル動物園に統合し、ベースモデルの能力を高める。
論文参考訳（メタデータ） (2025-03-27T16:21:53Z)
Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。我々の研究は、既存のLCMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始まります。我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。
論文参考訳（メタデータ） (2024-10-07T15:55:55Z)
You Only Merge Once: Learning the Pareto Set of Preference-Aware Model Merging [11.186194228460273]
本稿では,各ベースモデルのタスク上でのマージモデルの性能を目的として扱う,嗜好意識のモデルマージを提案する。 1つのマージプロセスのみにおいて、提案したパラメータ効率構造は、マージされたモデルの集合全体を生成することができる。提案手法により, 多様なトレードオフモデルを得ることができ, ベースラインの整合性に優れることを示す。
論文参考訳（メタデータ） (2024-08-22T03:41:14Z)
FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。 FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文参考訳（メタデータ） (2024-06-05T13:54:28Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文参考訳（メタデータ） (2024-03-04T06:19:27Z)
Merging by Matching Models in Task Parameter Subspaces [87.8712523378141]
モデルマージは、個々のタスク固有のモデルを単一のマルチタスクモデルに安価に結合することを目的としている。我々は、モデルマージに対するこのアプローチが、方程式の線形系を解くとみなす方法を定式化する。共役勾配法は閉形式解より優れていることを示す。
論文参考訳（メタデータ） (2023-12-07T14:59:15Z)
ZipIt! Merging Models from Different Tasks without Training [20.2479633507354]
ZipIt!」は、同じアーキテクチャの2つの任意のモデルをマージする一般的な方法である。これら2つの変更が組み合わさって、以前の作業よりも20～60%改善されていることが分かりました。
論文参考訳（メタデータ） (2023-05-04T17:59:58Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
GAN Cocktail: mixing GANs without dataset access [18.664733153082146]
実世界でしばしば発生する2つの制約を考えると、モデルマージの問題に取り組みます。第一段階では、モデルルートと呼ぶ手法により、全てのモデルの重みを同じパラメータ空間に変換する。第2段階では、ルートモデルの重みを平均化し、元のトレーニングされたモデルによって生成されたデータのみを使用して、特定のドメイン毎に微調整することで、ルートモデルとマージする。
論文参考訳（メタデータ） (2021-06-07T17:59:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。