論文の概要: LM-Cocktail: Resilient Tuning of Language Models via Model Merging
- arxiv url: http://arxiv.org/abs/2311.13534v1
- Date: Wed, 22 Nov 2023 17:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 14:28:44.249905
- Title: LM-Cocktail: Resilient Tuning of Language Models via Model Merging
- Title(参考訳): LM-Cocktail: モデルマージによる言語モデルの回復性チューニング
- Authors: Shitao Xiao, Zheng Liu, Peitian Zhang, Xingrun Xing
- Abstract要約: 本稿では,微調整モデルが汎用的な視点で弾力性を維持するための新しい手法を提案する。
本手法はモデルマージ(LM-Cocktail)の形式で実施する。
- 参考スコア(独自算出の注目度): 8.479219617263498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pre-trained language models are continually fine-tuned to better support
downstream applications. However, this operation may result in significant
performance degeneration on general tasks beyond the targeted domain. To
overcome this problem, we propose a novel method which enables the fine-tuned
model to stay resilient in general perspectives. Our method is conducted in the
form of model merging (namely LM-Cocktail), where the fine-tuned language model
is merged with the pre-trained base model or the peer models from other domains
through weighted average. Despite simplicity, LM-Cocktail is surprisingly
effective: the resulted model is able to achieve a strong empirical performance
in the whole scope of general tasks while preserving a superior capacity in its
targeted domain. We conduct comprehensive experiments with LLama and BGE model
on popular benchmarks, including FLAN, MMLU, MTEB, whose results validate the
efficacy of our proposed method. The code and checkpoints are available at
https://github.com/FlagOpen/FlagEmbedding.
- Abstract(参考訳): 事前訓練された言語モデルは、下流アプリケーションのサポートを改善するために継続的に微調整される。
しかし、この操作は、ターゲット領域を超えた一般的なタスクにおいて大きなパフォーマンス劣化をもたらす可能性がある。
この問題を克服するために, 微調整モデルが一般の観点で弾力性を維持することを可能にする新しい手法を提案する。
提案手法はモデルマージ(LM-Cocktail)の形式で実施され,微調整言語モデルと事前学習ベースモデル,あるいは他ドメインからのピアモデルとを重み付き平均でマージする。
LM-Cocktailは、単純さにもかかわらず驚くほど効果的である:結果のモデルは、ターゲットドメインの優れた能力を維持しながら、一般的なタスクの範囲全体において、強力な経験的性能を達成することができる。
提案手法の有効性を検証したFLAN,MMLU,MTEBなど,一般的なベンチマーク上でLLamaおよびBGEモデルを用いた総合的な実験を行った。
コードとチェックポイントはhttps://github.com/flagopen/flagembeddingで入手できる。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - Mitigating Catastrophic Forgetting in Language Transfer via Model Merging [16.845734486667226]
ブランチ・アンド・マージ(BaM)は複数のモデルを反復的にマージする手法である。
BaMは、これが低等級であるがより高い品質の重量変化をもたらすという知見に基づいている。
ブルガリア語とドイツ語の実証研究において、BaMは、マッチングやターゲットドメインの性能の向上を伴いながら、忘れを著しく低減できることを示した。
論文 参考訳(メタデータ) (2024-07-11T17:32:40Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Mafin: Enhancing Black-Box Embeddings with Model Augmented Fine-Tuning [13.211063836237468]
マフィン(Mafin)は、トレーニング可能な埋め込みモデルで強化することで、ブラックボックスの埋め込みモデルを微調整するための新しいアプローチである。
以上の結果から,Mafinは小さな拡張モデルの訓練を必要とせず,ブラックボックス埋め込みの性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-02-19T14:33:24Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - FedBE: Making Bayesian Model Ensemble Applicable to Federated Learning [23.726336635748783]
フェデレートラーニング(Federated Learning)は、ユーザのローカルにトレーニングされたモデルにアクセスして、自身のデータではなく、強力なグローバルモデルを協調的にトレーニングすることを目的としている。
したがって、ローカルモデルをグローバルモデルに集約することが重要なステップであり、これはユーザーが非i.d.データを持つ場合に困難であることが示されている。
我々は,ハイクオリティなグローバルモデルをサンプリングすることによってベイズ推論の観点から,FedBEという新しい集約アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-04T01:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。