論文の概要: Pack of LLMs: Model Fusion at Test-Time via Perplexity Optimization
- arxiv url: http://arxiv.org/abs/2404.11531v1
- Date: Wed, 17 Apr 2024 16:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 13:16:00.075212
- Title: Pack of LLMs: Model Fusion at Test-Time via Perplexity Optimization
- Title(参考訳): LLMパッケージ:パープレキシティ最適化による試験時間でのモデル融合
- Authors: Costas Mavromatis, Petros Karypis, George Karypis,
- Abstract要約: Pack of LLMs (PackLLM) は、入力プロンプトが与えられた場合、各LSMの専門知識を活用するテスト時間融合の有効な方法である。
我々は,多種多様なタスクに対して,100以上の大規模言語モデル(LLM)を用いて実験を行う。
PackLLMは、テスト時間融合ベースラインを1.89%精度で上回る。
- 参考スコア(独自算出の注目度): 18.73637736606997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fusing knowledge from multiple Large Language Models (LLMs) can combine their diverse strengths to achieve improved performance on a given task. However, current fusion approaches either rely on learning-based fusers that do not generalize to new LLMs, or do not take into account how well each LLM understands the input. In this work, we study LLM fusion at test-time, which enables leveraging knowledge from arbitrary user-specified LLMs during inference. We introduce Pack of LLMs (PackLLM), an effective method for test-time fusion that leverages each LLM's expertise, given an input prompt. PackLLM performs model fusion by solving an optimization problem for determining each LLM's importance, so that perplexity over the input prompt is minimized. First, our simple PackLLM-sim variant validates that perplexity is a good indicator for measuring each LLM's expertise. Second, our PackLLM-opt variant approximately solves the perplexity minimization problem via a greedy algorithm. The derived importance weights are used to combine the LLMs during inference. We conduct experiments with over 100 total LLMs on a diverse set of tasks. Experimental results show that (i) perplexity is a reliable measure for LLM fusion, (ii) PackLLM outperforms test-time fusion baselines by 1.89% accuracy points, and (iii) PackLLM can leverage new LLMs to improve performance over learning-based fusion approaches by 3.92-11.94% accuracy points.
- Abstract(参考訳): 複数のLarge Language Models (LLM) からの知識を融合させることで、与えられたタスクのパフォーマンスを向上させることができる。
しかし、現在の融合アプローチは、新しいLLMに一般化しない学習ベースのフューザーに依存するか、あるいはそれぞれのLLMが入力をいかによく理解しているかを考慮しない。
本研究では,任意のユーザ指定LLMからの知識を推論時に活用できるLLM融合を,テスト時に検討する。
入力プロンプトが与えられた場合、各LSMの専門知識を活用するテスト時間融合の有効な方法であるPack of LLM(PackLLM)を紹介する。
PackLLMは、各LLMの重要性を決定する最適化問題を解くことでモデル融合を行い、入力プロンプトのパープレキシティを最小化する。
まず、単純な PackLLM-sim 変種は、パープレキシティがそれぞれのLSMの専門知識を測定するのに良い指標であることを示す。
第二に、当社のPackLLM-opt変種は、グリードアルゴリズムを用いて、パープレキシティの最小化問題を解決する。
導出重みは、推論中にLLMを結合するために用いられる。
我々は,多種多様なタスクに対して,100以上のLLMを用いて実験を行った。
実験の結果
i)パープレキシティ(perplexity)は、LSM融合の信頼性の高い尺度である。
(ii)PackLLMは、テスト時核融合基準線を1.89%精度で上回り、
(iii) PackLLMは3.92-11.94%の精度で、学習ベースの融合アプローチよりも性能を向上させるために新しいLCMを利用することができる。
関連論文リスト
- LLM-TOPLA: Efficient LLM Ensemble by Maximising Diversity [7.945893812374361]
アンサンブルの成分LLM間の多様性と性能の相関を捉えるために,焦点の多様性指標を導入する。
我々は,N$ベースLLMのプールからトップkサブアンサンブルを選択するために,多様性に最適化されたアンサンブルプルーニングアルゴリズムを開発した。
我々のプルーニング法では、最高性能のLLMサブアンサンブルが$S$で、しばしば$N$よりもずっと小さいことを推奨している。
論文 参考訳(メタデータ) (2024-10-04T22:31:15Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なタスクで顕著な成功を収めたため、人気が高まっている。
しかしながら、個々のLLMは、トレーニングバイアス、モデルサイズ、使用されるデータセットなどの要因のために、複雑なタスクに適用する場合に制限がある。
本稿では,入力クエリを大規模プールからLLMの最も適切なサブセットに誘導する新しいアルゴリズムであるSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。