論文の概要: Don't Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection
- arxiv url: http://arxiv.org/abs/2602.08003v1
- Date: Sun, 08 Feb 2026 15:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.918808
- Title: Don't Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection
- Title(参考訳): 常に最高のパフォーマンスモデルを選ぶべきではない: LLMアンサンブル選択の情報理論的視点
- Authors: Yigit Turkmen, Baturalp Buyukates, Melih Bastopcu,
- Abstract要約: 大規模言語モデル(LLM)は、全体的な信頼性と堅牢性を改善するために組み立てられることが多いが、実際には強い相関関係にある。
我々は、真のラベルと選択されたモデルの予測との相互情報の最大化として、予算化されたアンサンブル選択を定式化する。
そこで本研究では,データから直接必要な情報条件を推定する,単純な欲求相互情報選択アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.266188814122605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are often ensembled together to improve overall reliability and robustness, but in practice models are strongly correlated. This raises a fundamental question: which models should be selected when forming an LLM ensemble? We formulate budgeted ensemble selection as maximizing the mutual information between the true label and predictions of the selected models. Furthermore, to explain why performance can saturate even with many models, we model the correlated errors of the models using Gaussian-copula and show an information-theoretic error floor for the performance of the ensemble. Motivated by these, we propose a simple greedy mutual-information selection algorithm that estimates the required information terms directly from data and iteratively builds an ensemble under a query budget. We test our approach in two question answering datasets and one binary sentiment classification dataset: MEDMCQA, MMLU, and IMDB movie reviews. Across all datasets, we observe that our method consistently outperforms strong baselines under the same query budget.
- Abstract(参考訳): 大規模言語モデル(LLM)は、全体的な信頼性と堅牢性を改善するために組み立てられることが多いが、実際には強い相関関係にある。
LLMアンサンブルを形成する際に、どのモデルを選択するべきか?
我々は、真のラベルと選択されたモデルの予測との相互情報の最大化として、予算化されたアンサンブル選択を定式化する。
さらに,多くのモデルにおいて性能が飽和する理由を説明するために,ガウスコピュラを用いたモデルの相関誤差をモデル化し,アンサンブルの性能に関する情報理論的誤差フロアを示す。
そこで本研究では,データから直接必要な情報語を推定し,クエリ予算に基づいて反復的にアンサンブルを構築する,単純な欲求相互情報選択アルゴリズムを提案する。
我々は2つの質問応答データセットと1つの感情分類データセット(MEDMCQA,MMLU,IMDB)でアプローチを検証した。
すべてのデータセットで、我々のメソッドは、同じクエリ予算の下で、強いベースラインを一貫して上回っていることを観察します。
関連論文リスト
- Model Class Selection [2.377712112950261]
モデルクラス選択(MCS)の考え方を紹介する。
MCSでは、複数のモデルコレクションが評価され、少なくとも1つの最適なモデルを含む全てのコレクションが識別のために検索される。
直接的な結果として、特定のデータセットに対して、より単純で解釈可能な統計モデルのクラスが、より複雑なブラックボックス機械学習モデルと同等に実行できるかどうかを調査することができる。
論文 参考訳(メタデータ) (2025-11-14T14:43:26Z) - Beyond Model Base Selection: Weaving Knowledge to Master Fine-grained Neural Network Design [20.31388126105889]
M-DESIGN(M-DESIGN)は、ニューラルネットワークの洗練を習得するためのモデル知識ベース(MKB)パイプラインである。
まず,タスクメタデータに対する適応的なクエリ問題としてモデル修正を再構成する知識織りエンジンを提案する。
ユーザのタスククエリが与えられた場合、M-DESIGNは、グラフ関係の知識スキーマを利用して、候補モデルをすばやくマッチングし、反復的に洗練する。
論文 参考訳(メタデータ) (2025-07-21T07:49:19Z) - Causal LLM Routing: End-to-End Regret Minimization from Observational Data [3.3580884064577616]
LLMルーティングは、クエリ毎に最も適切なモデルを選択することを目的としている。
従来のアプローチでは、メトリクスを最初に予測し、モデルがこれらの見積に基づいて選択される、分離された戦略が一般的だった。
観測データから意思決定の後悔を最小化してルーティングポリシーを学習する因果的エンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T21:34:18Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Large Language Model Routing with Benchmark Datasets [40.42044096089315]
通常、単一のモデルがすべてのタスクやユースケースで最高の精度を達成することはない。
そこで我々は,この選択のための"ルータ"モデルを学習するために,ベンチマークデータセットを再利用した新しい定式化を提案する。
本稿では,この問題をバイナリ分類タスクの集合に還元できることを示す。
論文 参考訳(メタデータ) (2023-09-27T17:08:40Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。