論文の概要: Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks
- arxiv url: http://arxiv.org/abs/2312.06795v1
- Date: Mon, 11 Dec 2023 19:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:24:21.711555
- Title: Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks
- Title(参考訳): Model Breadcrumbs: スパースマスクによるマルチタスクモデルマージのスケールアップ
- Authors: MohammadReza Davari and Eugene Belilovsky
- Abstract要約: 目標問題に対する一般的なアプローチは、特定の目標タスクに対して、訓練済みの基礎モデルを微調整することである。
本稿では,事前学習したモデルの重み空間内で軌跡を彫り出す,軽度に定義された重みの集合からなる,新しい単純な方法,Model Breadcrumbsを紹介する。
実験では,複数のタスクをまたいだ性能を同時に向上するモデルブレッドクラブの有効性を実証した。
- 参考スコア(独自算出の注目度): 14.349517221831364
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid development of AI systems has been greatly influenced by the
emergence of foundation models. A common approach for targeted problems
involves fine-tuning these pre-trained foundation models for specific target
tasks, resulting in a rapid spread of models fine-tuned across a diverse array
of tasks. This work focuses on the problem of merging multiple fine-tunings of
the same foundation model derived from a spectrum of auxiliary tasks. We
introduce a new simple method, Model Breadcrumbs, which consists of a sparsely
defined set of weights that carve out a trajectory within the weight space of a
pre-trained model, enhancing task performance when traversed. These breadcrumbs
are constructed by subtracting the weights from a pre-trained model before and
after fine-tuning, followed by a sparsification process that eliminates weight
outliers and negligible perturbations. Our experiments demonstrate the
effectiveness of Model Breadcrumbs to simultaneously improve performance across
multiple tasks. This contribution aligns with the evolving paradigm of
updatable machine learning, reminiscent of the collaborative principles
underlying open-source software development, fostering a community-driven
effort to reliably update machine learning models. Our method is shown to be
more efficient and unlike previous proposals does not require hyperparameter
tuning for each new task added. Through extensive experimentation involving
various models, tasks, and modalities we establish that integrating Model
Breadcrumbs offers a simple, efficient, and highly effective approach for
constructing multi-task models and facilitating updates to foundation models.
- Abstract(参考訳): AIシステムの急速な発展は、基礎モデルの出現に大きく影響されている。
ターゲット問題に対する一般的なアプローチは、これらのトレーニング済み基礎モデルを特定のターゲットタスクのために微調整することであり、その結果、様々なタスクに微調整されたモデルの急速な拡散をもたらす。
この研究は、補助的なタスクのスペクトルから導かれた同じ基礎モデルの複数の微調整をマージする問題に焦点を当てる。
本稿では,事前学習したモデルの重み空間内の軌跡を彫り出し,トラバース時のタスク性能を向上させる,疎定義された重みの集合からなる,新しい簡易な方法,Model Breadcrumbsを提案する。
これらのパンくずは、微調整前後の事前訓練されたモデルから重量を減じ、その後、重量の異常や不可分な摂動をなくすスパーシフィケーションプロセスによって構成される。
実験では,複数のタスクにまたがる性能向上のためのモデルパンクラムの有効性を実証した。
この貢献は、アップダスタブルな機械学習の進化パラダイム、基盤となるオープンソースソフトウェア開発の協調原則を思い起こさせ、機械学習モデルを確実に更新するためのコミュニティ主導の努力を育む。
提案手法はより効率的であることが示されており,従来の提案では追加タスク毎にハイパーパラメータチューニングを必要としない。
さまざまなモデル、タスク、モダリティを含む広範囲な実験を通じて、モデルパンクラムの統合は、マルチタスクモデルの構築と基盤モデルのアップデートを促進するために、シンプルで効率的で、非常に効果的なアプローチを提供する。
関連論文リスト
- On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion [23.63688816017186]
既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。
本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。
本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2024-06-17T03:07:41Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Fisher Mask Nodes for Language Model Merging [0.0]
本稿では,トランスフォーマーの新たなモデルマージ手法について紹介し,フィッシャー重み付けにおける過去の研究成果とモデルプルーニングにおけるフィッシャー情報の利用について考察する。
提案手法は,BERTファミリーの各種モデルに対して,正規かつ顕著な性能向上を示し,計算コストのごく一部において,大規模フィッシャー重み付き平均値よりも優れていた。
論文 参考訳(メタデータ) (2024-03-14T21:52:26Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Model Ratatouille: Recycling Diverse Models for Out-of-Distribution
Generalization [99.6826401545377]
ファウンデーションモデルは、AIシステムの構築方法を再定義している。実践者は、機械学習ソリューションを構築するための標準手順に従う。
我々は,多種多様な補助的タスクにおいて,同じ基礎モデルの複数の微調整をリサイクルする新しい戦略であるモデルラタトゥーイユを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:21:46Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z) - Modular Networks Prevent Catastrophic Interference in Model-Based
Multi-Task Reinforcement Learning [0.8883733362171032]
モデルベースのマルチタスク強化学習が、共有ポリシネットワークからモデルフリーメソッドが行うのと同様の方法で、共有ダイナミクスモデルから恩恵を受けるかどうかを検討する。
単一ダイナミクスモデルを用いて、タスクの混乱と性能低下の明確な証拠を見出す。
対策として、学習力学モデルの内部構造を個別のサブネットワークにトレーニングすることで、パフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-11-15T12:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。