論文の概要: Cool-Fusion: Fuse Large Language Models without Training
- arxiv url: http://arxiv.org/abs/2407.19807v2
- Date: Mon, 09 Jun 2025 09:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:46.778442
- Title: Cool-Fusion: Fuse Large Language Models without Training
- Title(参考訳): クールフュージョン:訓練なしの大規模言語モデルの使用
- Authors: Cong Liu, Xiaojun Quan, Yan Pan, Liang Lin, Weigang Wu, Xu Chen,
- Abstract要約: Cool-Fusionは、トレーニングを必要としないソースLLMの知識を融合させる。
さまざまなベンチマークデータセットで実験が行われた。
GSM8Kでは、Cool-Fusionは3つの強力なLLMからの精度を17.4%向上させた。
- 参考スコア(独自算出の注目度): 73.17551121242602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on the problem of fusing two or more heterogeneous large language models (LLMs) to leverage their complementary strengths. One of the challenges of model fusion is high computational load, specifically in fine-tuning or aligning vocabularies. To address this, we propose Cool-Fusion, a simple yet effective approach that fuses the knowledge of source LLMs, which does not require training. Unlike ensemble methods, Cool-Fusion is applicable to any set of source LLMs that have different vocabularies. To overcome the vocabulary discrepancies among LLMs, we ensemble LLMs on text level, allowing them to rerank the generated texts by each other with different granularities. Extensive experiments have been conducted across a variety of benchmark datasets. On GSM8K, Cool-Fusion increases accuracy from three strong source LLMs by a significant margin of 17.4\%.
- Abstract(参考訳): 我々は,2つ以上の異種大言語モデル(LLM)を融合して,それらの相補的な強みを利用するという問題に着目する。
モデル融合の課題の1つは高い計算負荷、特に微調整または整列語彙である。
そこで本研究では,ソースLLMの知識を融合させるシンプルで効果的な手法であるCool-Fusionを提案する。
アンサンブル法とは異なり、Cool-Fusionは異なる語彙を持つ任意のソースLLMに適用可能である。
LLM間の語彙差を克服するため、LLMをテキストレベルでアンサンブルし、異なる粒度で生成したテキストを相互に並べ替える。
さまざまなベンチマークデータセットに対して大規模な実験が実施されている。
GSM8Kでは、Cool-Fusionは3つの強力なLCMから17.4\%のマージンで精度を高める。
関連論文リスト
- Improving LLM-based Document-level Machine Translation with Multi-Knowledge Fusion [21.533772761328656]
本稿では、文書要約とエンティティ翻訳の両方を含む複数の知識源を組み込むことにより、拡張されたアプローチを提案する。
提案手法は,ベースライン上での0.8,0.6,0.4 COMETのスコアを,余分な知識を伴わずに平均的に改善する。
論文 参考訳(メタデータ) (2025-03-15T14:18:45Z) - Ensemble Learning for Large Language Models in Text and Code Generation: A Survey [6.041894045506043]
より広範なアプリケーションに対して、強力なパフォーマンスとポテンシャルを示す4つの方法とモデルに焦点を当てます。
これには多様性の表現性の向上、出力品質の向上、アプリケーションの柔軟性の向上などが含まれる。
論文 参考訳(メタデータ) (2025-03-13T18:50:57Z) - $H^3$Fusion: Helpful, Harmless, Honest Fusion of Aligned LLMs [7.498844064516196]
命令ベースデータセットを用いた事前学習LLMのアライメントは、人間の好みを反映した微調整モデルを作成する上で重要である。
本稿では,3つの特徴を持つアライメント融合法(H3$Fusion)を考案した。
個々のモデルを11.37%$で上回り、最先端のLLMアンサンブルのアプローチに比べて13.77%$で強い堅牢性を提供する。
論文 参考訳(メタデータ) (2024-11-26T17:42:38Z) - LLM-TOPLA: Efficient LLM Ensemble by Maximising Diversity [7.945893812374361]
アンサンブルの成分LLM間の多様性と性能の相関を捉えるために,焦点の多様性指標を導入する。
我々は,N$ベースLLMのプールからトップkサブアンサンブルを選択するために,多様性に最適化されたアンサンブルプルーニングアルゴリズムを開発した。
我々のプルーニング法では、最高性能のLLMサブアンサンブルが$S$で、しばしば$N$よりもずっと小さいことを推奨している。
論文 参考訳(メタデータ) (2024-10-04T22:31:15Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。
その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文 参考訳(メタデータ) (2024-06-06T03:46:59Z) - Text-like Encoding of Collaborative Information in Large Language Models for Recommendation [58.87865271693269]
BinLLMはLarge Language Models for Recommendation (LLMRec)とシームレスに連携する新しい手法である。
BinLLMは、外部モデルからの協調的な埋め込みをバイナリシーケンスに変換する。
BinLLMは、ドット決定記法を用いてバイナリシーケンスを圧縮するオプションを提供し、過度に長い長さを避ける。
論文 参考訳(メタデータ) (2024-06-05T12:45:25Z) - Generative Text Steganography with Large Language Model [10.572149957139736]
LLM-Stegaと呼ばれる大規模言語モデルのユーザインタフェースに基づくブラックボックス生成テキストステガノグラフィー手法。
まず、キーワードセットを構築し、秘密メッセージを埋め込むための新しい暗号化されたステガノグラフマッピングを設計する。
総合的な実験により、LLM-Stegaは現在の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-16T02:19:28Z) - Bridging the Gap between Different Vocabularies for LLM Ensemble [10.669552498083709]
様々な大言語モデル(LLM)における語彙の相違は、これまでの研究を制約してきた。
語彙アライメント(EVA)を用いたLLMのアンサンブル手法を提案する。
EVAは様々なLLM間の語彙ギャップを橋渡しし、各生成ステップで巧妙にアンサンブルすることができる。
論文 参考訳(メタデータ) (2024-04-15T06:28:20Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。