Fugu-MT 論文翻訳(概要): LM-Cocktail: Resilient Tuning of Language Models via Model Merging

論文の概要: LM-Cocktail: Resilient Tuning of Language Models via Model Merging

arxiv url: http://arxiv.org/abs/2311.13534v2
Date: Mon, 27 Nov 2023 02:52:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 10:01:23.141667
Title: LM-Cocktail: Resilient Tuning of Language Models via Model Merging
Title（参考訳）: LM-Cocktail: モデルマージによる言語モデルの回復性チューニング
Authors: Shitao Xiao, Zheng Liu, Peitian Zhang, Xingrun Xing
Abstract要約: 本稿では,微調整モデルが汎用的な視点で弾力性を維持するための新しい手法を提案する。本手法はモデルマージ(LM-Cocktail)の形式で実施する。
参考スコア（独自算出の注目度）: 8.479219617263498
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The pre-trained language models are continually fine-tuned to better support downstream applications. However, this operation may result in significant performance degeneration on general tasks beyond the targeted domain. To overcome this problem, we propose a novel method which enables the fine-tuned model to stay resilient in general perspectives. Our method is conducted in the form of model merging (namely LM-Cocktail), where the fine-tuned language model is merged with the pre-trained base model or the peer models from other domains through weighted average. Despite simplicity, LM-Cocktail is surprisingly effective: the resulted model is able to achieve a strong empirical performance in the whole scope of general tasks while preserving a superior capacity in its targeted domain. We conduct comprehensive experiments with LLama and BGE model on popular benchmarks, including FLAN, MMLU, MTEB, whose results validate the efficacy of our proposed method. The code and checkpoints are available at https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail.
Abstract（参考訳）: 事前訓練された言語モデルは、下流アプリケーションのサポートを改善するために継続的に微調整される。しかし、この操作は、ターゲット領域を超えた一般的なタスクにおいて大きなパフォーマンス劣化をもたらす可能性がある。この問題を克服するために, 微調整モデルが一般の観点で弾力性を維持することを可能にする新しい手法を提案する。提案手法はモデルマージ(LM-Cocktail)の形式で実施され,微調整言語モデルと事前学習ベースモデル,あるいは他ドメインからのピアモデルとを重み付き平均でマージする。 LM-Cocktailは、単純さにもかかわらず驚くほど効果的である:結果のモデルは、ターゲットドメインの優れた能力を維持しながら、一般的なタスクの範囲全体において、強力な経験的性能を達成することができる。提案手法の有効性を検証したFLAN,MMLU,MTEBなど,一般的なベンチマーク上でLLamaおよびBGEモデルを用いた総合的な実験を行った。コードとチェックポイントはhttps://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktailで確認できる。

関連論文リスト

A Systematic Study of Model Merging Techniques in Large Language Models [43.5967188676583]
モデルマージは、複数の微調整されたチェックポイントを、追加のトレーニングなしで単一のモデルに結合する。本稿では,6つの最先端マージ手法の大規模かつ体系的な評価を行う。その結果、最古かつ最も単純なタスク算術法は、LCMの性能向上を確実に得る唯一の方法であることがわかった。
論文参考訳（メタデータ） (2025-11-26T14:28:11Z)
Black-box Model Merging for Language-Model-as-a-Service with Massive Model Repositories [21.899117703417517]
進化的アルゴリズム(Evo-Merging)に基づく微分自由最適化フレームワークを提案する。提案手法は,(1) モデル間の不適切な情報や冗長な情報を識別・フィルタリングする疎結合型デノベーション,(2) 関連モデルに対する最適な組合せ重み付けを動的に計算するシグナック・アウェア・スケーリングの2つの重要な要素から構成される。提案手法は,様々なタスクにおける最先端の成果を達成し,既存の強靭なベースラインを著しく上回っている。
論文参考訳（メタデータ） (2025-09-16T10:55:50Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference [33.871080938643566]
大規模言語モデル(LLM)はモデルパラメータのスケーリングによって素晴らしいパフォーマンスを達成するが、これはかなりの推論オーバーヘッドを伴う。我々は,高密度モデルからMoEモデルを効率的に彫る新しいフレームワークであるCMoEを提案する。 CMoEは、効率的なエキスパートグループ化と軽量適応によって、優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-02-06T14:05:30Z)
Towards Compatible Fine-tuning for Vision-Language Model Updates [114.25776195225494]
クラス条件付きコンテキスト最適化(ContCoOp)は、学習可能なプロンプトと、テキストエンコーダに入力する前に注意層を使用してクラス埋め込みを統合する。 15のデータセットで実験した結果,ContCoOpはベースライン法よりも高い互換性を示し,分布外一般化の堅牢性を示すことがわかった。
論文参考訳（メタデータ） (2024-12-30T12:06:27Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文参考訳（メタデータ） (2024-10-16T14:29:29Z)
Mitigating Catastrophic Forgetting in Language Transfer via Model Merging [16.845734486667226]
ブランチ・アンド・マージ(BaM)は複数のモデルを反復的にマージする手法である。 BaMは、これが低等級であるがより高い品質の重量変化をもたらすという知見に基づいている。ブルガリア語とドイツ語の実証研究において、BaMは、マッチングやターゲットドメインの性能の向上を伴いながら、忘れを著しく低減できることを示した。
論文参考訳（メタデータ） (2024-07-11T17:32:40Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Beyond Under-Alignment: Atomic Preference Enhanced Factuality Tuning for Large Language Models [19.015202590038996]
様々な選好学習アルゴリズムによって調整された異なるモデルの事実性を評価する。 textbfAtomic textbfPreference textbfEnhanced textbfFactuality textbfTuning を提案する。
論文参考訳（メタデータ） (2024-06-18T09:07:30Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Mafin: Enhancing Black-Box Embeddings with Model Augmented Fine-Tuning [13.211063836237468]
マフィン(Mafin)は、トレーニング可能な埋め込みモデルで強化することで、ブラックボックスの埋め込みモデルを微調整するための新しいアプローチである。以上の結果から,Mafinは小さな拡張モデルの訓練を必要とせず,ブラックボックス埋め込みの性能を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-02-19T14:33:24Z)
Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。 CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:28:29Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)
FedBE: Making Bayesian Model Ensemble Applicable to Federated Learning [23.726336635748783]
フェデレートラーニング(Federated Learning)は、ユーザのローカルにトレーニングされたモデルにアクセスして、自身のデータではなく、強力なグローバルモデルを協調的にトレーニングすることを目的としている。したがって、ローカルモデルをグローバルモデルに集約することが重要なステップであり、これはユーザーが非i.d.データを持つ場合に困難であることが示されている。我々は,ハイクオリティなグローバルモデルをサンプリングすることによってベイズ推論の観点から,FedBEという新しい集約アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-09-04T01:18:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。