論文の概要: LM-Cocktail: Resilient Tuning of Language Models via Model Merging
- arxiv url: http://arxiv.org/abs/2311.13534v2
- Date: Mon, 27 Nov 2023 02:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 10:01:23.141667
- Title: LM-Cocktail: Resilient Tuning of Language Models via Model Merging
- Title(参考訳): LM-Cocktail: モデルマージによる言語モデルの回復性チューニング
- Authors: Shitao Xiao, Zheng Liu, Peitian Zhang, Xingrun Xing
- Abstract要約: 本稿では,微調整モデルが汎用的な視点で弾力性を維持するための新しい手法を提案する。
本手法はモデルマージ(LM-Cocktail)の形式で実施する。
- 参考スコア(独自算出の注目度): 8.479219617263498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pre-trained language models are continually fine-tuned to better support
downstream applications. However, this operation may result in significant
performance degeneration on general tasks beyond the targeted domain. To
overcome this problem, we propose a novel method which enables the fine-tuned
model to stay resilient in general perspectives. Our method is conducted in the
form of model merging (namely LM-Cocktail), where the fine-tuned language model
is merged with the pre-trained base model or the peer models from other domains
through weighted average. Despite simplicity, LM-Cocktail is surprisingly
effective: the resulted model is able to achieve a strong empirical performance
in the whole scope of general tasks while preserving a superior capacity in its
targeted domain. We conduct comprehensive experiments with LLama and BGE model
on popular benchmarks, including FLAN, MMLU, MTEB, whose results validate the
efficacy of our proposed method. The code and checkpoints are available at
https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail.
- Abstract(参考訳): 事前訓練された言語モデルは、下流アプリケーションのサポートを改善するために継続的に微調整される。
しかし、この操作は、ターゲット領域を超えた一般的なタスクにおいて大きなパフォーマンス劣化をもたらす可能性がある。
この問題を克服するために, 微調整モデルが一般の観点で弾力性を維持することを可能にする新しい手法を提案する。
提案手法はモデルマージ(LM-Cocktail)の形式で実施され,微調整言語モデルと事前学習ベースモデル,あるいは他ドメインからのピアモデルとを重み付き平均でマージする。
LM-Cocktailは、単純さにもかかわらず驚くほど効果的である:結果のモデルは、ターゲットドメインの優れた能力を維持しながら、一般的なタスクの範囲全体において、強力な経験的性能を達成することができる。
提案手法の有効性を検証したFLAN,MMLU,MTEBなど,一般的なベンチマーク上でLLamaおよびBGEモデルを用いた総合的な実験を行った。
コードとチェックポイントはhttps://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktailで確認できる。
関連論文リスト
- LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model [4.6373877301731]
我々は、最近リリースされた大規模言語モデル(LLM)のGemmaファミリで、人気のあるLLaVAフレームワークを使用して、MMFM(Multimodal foundation model)のスイートをトレーニングする。
コネクタの事前訓練,より強力な画像バックボーンの利用,言語バックボーンのサイズ拡大という,3つの設計上の特徴を損なう効果を検証した。
LLaVA-Gemmaと呼ばれる結果のモデルは、評価の配列に対して適度な性能を示すが、現在の大容量SOTAモデルよりは改善されない。
論文 参考訳(メタデータ) (2024-03-29T21:32:50Z) - Mafin: Enhancing Black-Box Embeddings with Model Augmented Fine-Tuning [13.211063836237468]
マフィン(Mafin)は、トレーニング可能な埋め込みモデルで強化することで、ブラックボックスの埋め込みモデルを微調整するための新しいアプローチである。
以上の結果から,Mafinは小さな拡張モデルの訓練を必要とせず,ブラックボックス埋め込みの性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-02-19T14:33:24Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - FedBE: Making Bayesian Model Ensemble Applicable to Federated Learning [23.726336635748783]
フェデレートラーニング(Federated Learning)は、ユーザのローカルにトレーニングされたモデルにアクセスして、自身のデータではなく、強力なグローバルモデルを協調的にトレーニングすることを目的としている。
したがって、ローカルモデルをグローバルモデルに集約することが重要なステップであり、これはユーザーが非i.d.データを持つ場合に困難であることが示されている。
我々は,ハイクオリティなグローバルモデルをサンプリングすることによってベイズ推論の観点から,FedBEという新しい集約アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-04T01:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。