論文の概要: Enabling Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration
- arxiv url: http://arxiv.org/abs/2404.12715v1
- Date: Fri, 19 Apr 2024 08:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:45:58.765047
- Title: Enabling Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration
- Title(参考訳): 深層並列協調による異種大言語モデルのアンサンブル学習
- Authors: Yichong Huang, Xiaocheng Feng, Baohang Li, Yang Xiang, Hui Wang, Bing Qin, Ting Liu,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクやインスタンスにおいて相補的な強みを示している。
既存の手法は、訓練されたモデルの一般化可能性に大きな課題をもたらす。
異なるLLMが出力する確率を平均化するトレーニングフリーアンサンブルフレームワークDEEPENを提案する。
- 参考スコア(独自算出の注目度): 39.35476224845088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown complementary strengths in various tasks and instances, motivating the research of ensembling LLMs to push the frontier leveraging the wisdom of the crowd. Existing work achieves this objective via training the extra reward model or fusion model to select or fuse all candidate answers. However, these methods pose a great challenge to the generalizability of the trained models. Besides, existing methods use the textual responses as communication media, ignoring the rich information in the inner representations of neural networks. Therefore, we propose a training-free ensemble framework DEEPEN, averaging the probability distributions outputted by different LLMs. A key challenge in this paradigm is the vocabulary discrepancy between heterogeneous LLMs, which hinders the operation of probability distribution averaging. To address this challenge, DEEPEN maps the probability distribution of each model from the probability space to a universe relative space based on the relative representation theory, and performs aggregation. Then, the result of aggregation is mapped back to the probability space of one LLM via a search-based inverse transformation to determine the generated token. We conduct experiments on the ensemble of various LLMs of 6B to 70B. Experimental results show that DEEPEN achieves consistent improvements across six popular benchmarks involving subject examination, reasoning and knowledge-QA, proving the effectiveness of our approach.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々なタスクや事例において相補的な強みを示しており、聴衆の知恵を活かしてフロンティアを前進させるLLMの研究を動機付けている。
既存の作業はこの目的を達成するために、追加の報酬モデルや融合モデルをトレーニングし、すべての候補の答えを選択したり、融合させたりします。
しかし、これらの手法は、訓練されたモデルの一般化可能性に大きな課題をもたらす。
さらに、既存の手法では、ニューラルネットワークの内部表現の豊富な情報を無視して、テキスト応答を通信媒体として使用する。
そこで本研究では,異なるLLMが出力する確率分布を平均化する学習自由アンサンブルフレームワークDEEPENを提案する。
このパラダイムの重要な課題は、確率分布平均化の動作を妨げる不均一なLLM間の語彙差である。
この課題に対処するため、DEEPENは相対表現理論に基づいて各モデルの確率分布を確率空間から宇宙相対空間にマッピングし、アグリゲーションを実行する。
そして、アグリゲーションの結果を検索ベースの逆変換によって1つのLCMの確率空間にマッピングし、生成されたトークンを決定する。
6Bから70Bの様々なLDMのアンサンブルについて実験を行った。
実験の結果,DEPENは主観的評価,推論,知識QAを含む6つの一般的なベンチマークで一貫した改善を実現し,本手法の有効性を実証した。
関連論文リスト
- Bridging the Gap between Different Vocabularies for LLM Ensemble [10.669552498083709]
様々な大言語モデル(LLM)における語彙の相違は、これまでの研究を制約してきた。
語彙アライメント(EVA)を用いたLLMのアンサンブル手法を提案する。
EVAは様々なLLM間の語彙ギャップを橋渡しし、各生成ステップで巧妙にアンサンブルすることができる。
論文 参考訳(メタデータ) (2024-04-15T06:28:20Z) - Holonic Learning: A Flexible Agent-based Distributed Machine Learning
Framework [0.0]
Holonic Learning(HoL)は、ディープラーニングモデルのトレーニング用に設計された、協調的でプライバシを重視した学習フレームワークである。
ホロニックの概念を活用することで、HoLフレームワークは学習プロセスにおいて構造化された自己相似階層を確立する。
本稿では, すべてのホロンのモデルアグリゲーションに重み付け平均化を用いるHoloAvgを実装した。
論文 参考訳(メタデータ) (2023-12-29T12:03:42Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Multi-Task Learning on Networks [0.0]
マルチタスク学習コンテキストで発生する多目的最適化問題は、特定の特徴を持ち、アドホックな方法を必要とする。
この論文では、入力空間の解は、関数評価に含まれる知識をカプセル化した確率分布として表現される。
確率分布のこの空間では、ワッサーシュタイン距離によって与えられる計量が与えられ、モデルが目的関数に直接依存しないような新しいアルゴリズムMOEA/WSTを設計することができる。
論文 参考訳(メタデータ) (2021-12-07T09:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。