Fugu-MT 論文翻訳(概要): ZipIt! Merging Models from Different Tasks without Training

論文の概要: ZipIt! Merging Models from Different Tasks without Training

arxiv url: http://arxiv.org/abs/2305.03053v3
Date: Wed, 13 Mar 2024 02:04:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 18:57:04.014329
Title: ZipIt! Merging Models from Different Tasks without Training
Title（参考訳）: ZipIt! トレーニングなしで異なるタスクからモデルをマージする
Authors: George Stoica, Daniel Bolya, Jakob Bjorner, Pratik Ramesh, Taylor Hearn, Judy Hoffman
Abstract要約: ZipIt!」は、同じアーキテクチャの2つの任意のモデルをマージする一般的な方法である。これら2つの変更が組み合わさって、以前の作業よりも20～60%改善されていることが分かりました。
参考スコア（独自算出の注目度）: 20.2479633507354
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Typical deep visual recognition models are capable of performing the one task they were trained on. In this paper, we tackle the extremely difficult problem of combining distinct models with different initializations, each solving a separate task, into one multi-task model without any additional training. Prior work in model merging permutes one model to the space of the other then averages them together. While this works for models trained on the same task, we find that this fails to account for the differences in models trained on disjoint tasks. Thus, we introduce "ZipIt!", a general method for merging two arbitrary models of the same architecture that incorporates two simple strategies. First, in order to account for features that aren't shared between models, we expand the model merging problem to allow for merging features within each model by defining a general "zip" operation. Second, we add support for partially zipping the models up until a specified layer, naturally creating a multi-head model. We find that these two changes combined account for 20-60% improvement over prior work, making it more feasible to merge models trained on disjoint tasks without retraining.
Abstract（参考訳）: 典型的な深い視覚認識モデルは、訓練された1つのタスクを実行することができる。本稿では,異なる初期化モデルと異なる初期化モデルを組み合わせて,個別のタスクを1つのマルチタスクモデルに追加の訓練を加えることなく組み合わせることの難しさに対処する。モデルマージにおける以前の作業は、1つのモデルをもう1つのモデルの空間に置換し、それらを平均化する。これは同じタスクでトレーニングされたモデルに当てはまるが、非結合タスクでトレーニングされたモデルの違いを考慮するのに失敗する。そこで我々は,2つの簡単な戦略を組み込んだ,同じアーキテクチャの2つの任意のモデルをマージする一般的な手法であるZipIt!を紹介した。まず、モデル間で共有されていない機能を説明するために、一般的な「zip」操作を定義して各モデル内の機能をマージできるように、モデルマージ問題を拡張します。第二に、特定のレイヤまでモデルを部分的にジッピングするサポートを追加し、自然にマルチヘッドモデルを作成します。これらの2つの変更は、事前の作業よりも20～60%改善されているため、非結合タスクでトレーニングされたモデルを再トレーニングせずにマージしやすくなる。

関連論文リスト

Navigating the Accuracy-Size Trade-Off with Flexible Model Merging [15.497612580389479]
我々は、新しいデータフリーモデルマージフレームワークFlexMergeを提案する。異なる大きさのマージモデルを柔軟に生成し、単一のマージモデルから完全なスペクトルにまたがり、すべての微調整モデルを保持する。 FlexMergeを使って、異なるアルゴリズムの精度と大きさのトレードオフを体系的に特徴づける。
論文参考訳（メタデータ） (2025-05-29T07:50:32Z)
OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Why Train Everything? Tint a Single Layer for Multi-task Model Merging [17.496018757317824]
モデルマージは独立して微調整されたモデルを単一のマルチタスクモデルに統合し、ジョイントトレーニングの柔軟な代替手段を提供する。多くの既存のモデルマージ手法は、追加のタスク固有のコンポーネントを導入し、複雑さを増し、追加の修正を必要とする。単一のレイヤだけを更新することで、モデルマージを改善する軽量かつ高効率なアプローチであるModel Tintingを提案する。
論文参考訳（メタデータ） (2024-12-26T07:42:06Z)
How to Merge Your Multimodal Models Over Time? [73.11304741033761]
我々は3つの軸にまたがる時間モデルを定義するTIMEという統合フレームワークを提案する。本稿では,FoMo-in-Fluxベンチマークを用いて,モデルサイズ,計算予算,学習地平線にまたがる時間モデルについて検討する。
論文参考訳（メタデータ） (2024-12-09T18:01:13Z)
What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。本研究は,大規模モデルマージの有用性を体系的に評価する。
論文参考訳（メタデータ） (2024-10-04T17:17:19Z)
PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
モデル決定型PLeaSをマージする2段階のアルゴリズムを提案する。 PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。マージされたモデルの重みをレイヤワイズ・リースト・スクエアの解として計算する。
論文参考訳（メタデータ） (2024-07-02T17:24:04Z)
Twin-Merging: Dynamic Integration of Modular Expertise in Model Merging [21.918559935122786]
モデルマージは、複数のタスク固有のモデルを、余分なトレーニングなしで単一のマルチタスクモデルに結合する、有望な方法である。従来のモデルマージ手法は、微調整されたモデルに比べて大きな性能差を示すことが多い。共有されたタスク固有の知識と排他的なタスク固有の知識の両方が、パフォーマンスのマージには不可欠であるが、排他的な知識を直接マージすることは、全体的なパフォーマンスを妨げていることを示す。本稿では,1)知識を共有コンポーネントと排他コンポーネントにモジュール化し,冗長性を低減し効率を向上する圧縮,(2)共有およびタスク固有の知識を動的にマージする,という2つの主要な段階を包含する手法を提案する。
論文参考訳（メタデータ） (2024-06-17T02:31:55Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Merging by Matching Models in Task Parameter Subspaces [87.8712523378141]
モデルマージは、個々のタスク固有のモデルを単一のマルチタスクモデルに安価に結合することを目的としている。我々は、モデルマージに対するこのアプローチが、方程式の線形系を解くとみなす方法を定式化する。共役勾配法は閉形式解より優れていることを示す。
論文参考訳（メタデータ） (2023-12-07T14:59:15Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文参考訳（メタデータ） (2023-07-30T09:48:36Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
GAN Cocktail: mixing GANs without dataset access [18.664733153082146]
実世界でしばしば発生する2つの制約を考えると、モデルマージの問題に取り組みます。第一段階では、モデルルートと呼ぶ手法により、全てのモデルの重みを同じパラメータ空間に変換する。第2段階では、ルートモデルの重みを平均化し、元のトレーニングされたモデルによって生成されたデータのみを使用して、特定のドメイン毎に微調整することで、ルートモデルとマージする。
論文参考訳（メタデータ） (2021-06-07T17:59:04Z)
Lifelong Learning with Searchable Extension Units [21.17631355880764]
本稿では,検索可能拡張ユニット(SEU)という生涯学習フレームワークを提案する。これは、事前に定義されたオリジナルのモデルの必要性を断ち切り、異なるタスクのための特定の拡張ユニットを検索する。我々のアプローチは、破滅的な忘れることなく、はるかにコンパクトなモデルを得ることができる。
論文参考訳（メタデータ） (2020-03-19T03:45:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。