論文の概要: STAR: Spectral Truncation and Rescale for Model Merging
- arxiv url: http://arxiv.org/abs/2502.10339v1
- Date: Fri, 14 Feb 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:48:41.345629
- Title: STAR: Spectral Truncation and Rescale for Model Merging
- Title(参考訳): STAR: モデルマージのためのスペクトルトランケーションと再スケール
- Authors: Yu-Ang Lee, Ching-Yun Ko, Tejaswini Pedapati, I-Hsin Chung, Mi-Yen Yeh, Pin-Yu Chen,
- Abstract要約: モデルマージにおける重要な課題は、モデルの数が増加するにつれてタスクパフォーマンスが必然的に低下することである。
我々は,合併紛争の緩和を目的とした$mathbfS$pectral $mathbfT$runcation $mathbfA$nd $mathbfR$escale (STAR)を提案する。
多様なNLPタスクにおける広範囲なモデル統合事例によるSTARの有効性を実証する。
- 参考スコア(独自算出の注目度): 48.19545750399348
- License:
- Abstract: Model merging is an efficient way of obtaining a multi-task model from several pretrained models without further fine-tuning, and it has gained attention in various domains, including natural language processing (NLP). Despite the efficiency, a key challenge in model merging is the seemingly inevitable decrease in task performance as the number of models increases. In this paper, we propose $\mathbf{S}$pectral $\mathbf{T}$runcation $\mathbf{A}$nd $\mathbf{R}$escale (STAR) that aims at mitigating ``merging conflicts'' by truncating small components in the respective spectral spaces, which is followed by an automatic parameter rescaling scheme to retain the nuclear norm of the original matrix. STAR requires no additional inference on original training data and is robust to hyperparamater choice. We demonstrate the effectiveness of STAR through extensive model merging cases on diverse NLP tasks. Specifically, STAR works robustly across varying model sizes, and can outperform baselines by 4.2$\%$ when merging 12 models on Flan-T5. Our code is publicly available at https://github.com/IBM/STAR.
- Abstract(参考訳): モデルマージは,複数の事前訓練されたモデルから,さらなる微調整なしにマルチタスクモデルを得るための効率的な方法であり,自然言語処理(NLP)を含む様々な領域で注目を集めている。
効率性にもかかわらず、モデルマージにおける重要な課題は、モデルの数が増加するにつれてタスクパフォーマンスが必然的に低下することである。
本稿では,各スペクトル空間の小さな成分をトラッピングすることで,元の行列の核ノルムを保持する自動パラメータ再スケーリングスキームにより,‘メルギングコンフリクト’を緩和することを目的とした,$\mathbf{S}$pectral $\mathbf{T}$runcation $\mathbf{A}$nd $\mathbf{R}$escale (STAR)を提案する。
STARは、元のトレーニングデータに対する追加の推論を必要としないため、ハイパーパラメータの選択に対して堅牢である。
多様なNLPタスクにおける広範囲なモデル統合事例によるSTARの有効性を実証する。
具体的には、STARは様々なモデルサイズで堅牢に動作し、Flan-T5上で12モデルをマージした場合、ベースラインを4.2$\%以上上回ることができる。
私たちのコードはhttps://github.com/IBM/STAR.comで公開されています。
関連論文リスト
- What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - HM3: Heterogeneous Multi-Class Model Merging [0.0]
本研究では,補助ガードレールモデルを単一多機能モデルに統合するためのトレーニングフリーモデルマージ手法について検討する。
異種ラベル空間とマルチクラス分類器をマージする簡単な手法として、異種多クラスモデルマージ(HM3)を提案する。
BERTをベースとしたガードモデルをマージする有望な結果が報告され、その一部はソースモデルよりも平均F1スコア高くなり、推論時間を最大44%削減する。
論文 参考訳(メタデータ) (2024-09-27T22:42:45Z) - Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis [17.989809995141044]
相関解析に基づくCCAマージを提案する。
2モデル以上のモデルがマージされた場合、CCAは過去の方法よりもはるかにうまく機能することを示す。
論文 参考訳(メタデータ) (2024-07-07T14:21:04Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
モデル決定型PLeaSをマージする2段階のアルゴリズムを提案する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
マージされたモデルの重みをレイヤワイズ・リースト・スクエアの解として計算する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。