論文の概要: FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion
- arxiv url: http://arxiv.org/abs/2503.04222v1
- Date: Thu, 06 Mar 2025 09:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:22.288563
- Title: FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion
- Title(参考訳): FuseChat-3.0:不均一なモデル融合を優先最適化
- Authors: Ziyi Yang, Fanqi Wan, Longguang Zhong, Canbin Huang, Guosheng Liang, Xiaojun Quan,
- Abstract要約: FuseChat-3.0は、異種音源LLMの強みをよりコンパクトな目標LLMに組み込むことによって開発された大型言語モデル(LLM)のスイートである。
ターゲットモデルでは、Llama-3.1-8B-インストラクト、Gemma-2-9B-it、Qwen-2.5-72B-インストラクトの3種類に焦点をあてる。
結果として得られたFuseChat-3.0モデルは、命令追従、一般的な知識、数学、コーディングといったタスク間で大きなパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 32.0871035771324
- License:
- Abstract: We introduce FuseChat-3.0, a suite of large language models (LLMs) developed by integrating the strengths of heterogeneous source LLMs into more compact target LLMs. Our source models include the powerful Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct, and Llama-3.1-70B-Instruct. For target models, we focus on three widely-used smaller variants-Llama-3.1-8B-Instruct, Gemma-2-9B-it, and Qwen-2.5-7B-Instruct-along with two ultra-compact options, Llama-3.2-3B-Instruct and Llama-3.2-1B-Instruct. To leverage the diverse capabilities of these source models, we develop a specialized data construction protocol tailored to various tasks and domains. The FuseChat-3.0 training pipeline consists of two key stages: (1) supervised fine-tuning (SFT) to align the target and source model distributions, and (2) Direct Preference Optimization (DPO) to apply preferences from multiple source LLMs to fine-tune the target model. The resulting FuseChat-3.0 models exhibit significant performance gains across tasks such as instruction following, general knowledge, mathematics, and coding. As illustrated in Figure 1, using Llama-3.1-8B-Instruct as the target model, our fusion approach achieves an average improvement of 6.8 points across 14 benchmarks. Moreover, it demonstrates remarkable gains of 37.1 points and 30.1 points on the instruction-following benchmarks AlpacaEval-2 and Arena-Hard, respectively. Our code, models, and datasets are available at https://github.com/SLIT-AI/FuseChat-3.0.
- Abstract(参考訳): FuseChat-3.0は、異種音源LLMの強みをよりコンパクトな目標LLMに組み込むことによって開発された大型言語モデル(LLM)のスイートである。
我々のモデルには強力なGemma-2-27B-it、Mistral-Large-Instruct-2407、Qwen-2.5-72B-Instruct、Llama-3.1-70B-Instructが含まれる。
ターゲットモデルでは、Llama-3.1-8B-Instruct, Gemma-2-9B-it, Qwen-2.5-7B-Instruct-along with two Ultra-compact options, Llama-3.2-3B-Instruct and Llama-3.2-1B-Instruct。
これらのソースモデルの多種多様な機能を活用するため,様々なタスクやドメインに適した特殊なデータ構築プロトコルを開発した。
FuseChat-3.0トレーニングパイプラインは、(1)ターゲットモデルとソースモデルの分布を調整するための教師付き微調整(SFT)と、(2)ターゲットモデルを微調整するために複数のソースLLMからの選好を適用するための直接選好最適化(DPO)の2つの主要なステージで構成されている。
結果として得られたFuseChat-3.0モデルは、命令追従、一般的な知識、数学、コーディングといったタスク間で大きなパフォーマンス向上を示す。
図1に示すように、Llama-3.1-8B-Instructをターゲットモデルとし、14ベンチマークで平均6.8ポイントの改善を実現している。
さらに、命令追従ベンチマークAlpacaEval-2とArena-Hardでそれぞれ37.1点と30.1点の顕著な上昇を示した。
私たちのコード、モデル、データセットはhttps://github.com/SLIT-AI/FuseChat-3.0で公開されています。
関連論文リスト
- The Best Instruction-Tuning Data are Those That Fit [17.401088816596054]
事前訓練された大言語モデル(LLM)から強機能を引き出すためには,SFT(Supervised Fine-tuning)データが必要である。
GRAPE*は,対象モデルの特異な特徴を考慮に入れた,新しいSFTフレームワークである。
各命令に対して、様々なLSMからの応答を収集し、ターゲットモデルによって測定された最も高い確率の命令を選択する。
論文 参考訳(メタデータ) (2025-02-06T16:31:21Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - FuseChat: Knowledge Fusion of Chat Models [35.90957231731829]
チャットLLMの知識融合のための新しいフレームワークを提案する。
我々は, OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct, Qwen-1.5-Chat-72B の6つの著名なチャット LLM を用いて,FuseChat の実装と検証を行った。
論文 参考訳(メタデータ) (2024-08-15T07:37:24Z) - DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling [24.270321913746233]
そこで本研究では,mAgnitude(DELLA-Merging)とSampLingを併用した新しいモデルマージ手法であるDropとrEscaLeを提案する。
MAGPRUNEはまず、これらのパラメータを等級順にランク付けし、より低い等級のパラメータに高い降下確率(p)を割り当てる。
論文 参考訳(メタデータ) (2024-06-17T15:02:45Z) - Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks [0.9786690381850356]
本研究では、22のデータセットと13.8時間の発話をゼロショット環境で使用し、17のタスクにまたがる7つの顕著なLarge Language Model (LLM)を詳細に検討し、その性能を最先端(SOTA)モデルと比較した。
この結果から,Llama 3.1-8Bのようなより少ないパラメータを持つモデルでは,GPT-3.5のような言語多様性の低いモデルよりも,よりリッチな言語特化データの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Llama 2: Open Foundation and Fine-Tuned Chat Models [65.43397761706336]
Llama 2は、事前訓練と微調整を施した大規模言語モデル(LLM)のコレクションである。
Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。
論文 参考訳(メタデータ) (2023-07-18T14:31:57Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。