論文の概要: Large Language Model Selection with Limited Annotations
- arxiv url: http://arxiv.org/abs/2605.24981v1
- Date: Sun, 24 May 2026 10:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.629781
- Title: Large Language Model Selection with Limited Annotations
- Title(参考訳): 限定アノテーションを用いた大規模言語モデル選択
- Authors: Yavuz Durmazkeser, Patrik Okanovic, Andreas Kirsch, Torsten Hoefler, Nezihe Merve Gürel,
- Abstract要約: 我々は,Large Language Models (LLM) のアクティブモデル選択のための最初のフレームワークである SELECT-LLM を開発した。
本稿では,候補モデル出力間のペアの類似性から計算した,予測情報ゲインに基づくクエリ選択ルールを提案する。
我々は,SELECT-LLMを23のデータセット,156のモデル,多様なタスクファミリ,複数のテキスト評価指標で評価した。
- 参考スコア(独自算出の注目度): 18.985244406763258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Choosing a Large Language Model (LLM) for a given task requires comparing many strong candidates, yet standard evaluation relies on costly annotations over fixed evaluation sets. To address this challenge, we develop SELECT-LLM, the first framework for active model selection of LLMs. SELECT-LLM aims to find a small set of queries whose annotations are most informative for identifying the best LLM for a given task. To this end, we introduce a query selection rule based on expected information gain, computed from pairwise similarities between candidate model outputs. Because this rule only uses generated model responses, SELECT-LLM can be applied across candidate models without assumptions about their architecture or access to model weights. This makes it suitable for both open-weight and black-box LLMs. We evaluate SELECT-LLM across 23 datasets, 156 evaluated models, diverse task families, and multiple text evaluation metrics. Across all experiments, SELECT-LLM improves over the strongest baseline in every setting, with annotation cost reductions up to 81.8% for best model selection and up to 84.78% for near-best model selection.
- Abstract(参考訳): 与えられたタスクに対してLarge Language Model (LLM)を選択するには、多くの強力な候補を比較する必要があるが、標準的な評価は固定された評価セットよりも高価なアノテーションに依存する。
この課題に対処するため,LLMのアクティブモデル選択のための最初のフレームワークであるSELECT-LLMを開発した。
SELECT-LLMは、特定のタスクに最適なLLMを特定するのに最も有益なアノテーションを持つ、小さなクエリセットを見つけることを目的としている。
この目的のために、候補モデル出力間のペアの類似性から計算した、期待される情報ゲインに基づくクエリ選択ルールを導入する。
このルールは生成されたモデル応答のみを使用するため、SELECT-LLMはアーキテクチャやモデルウェイトへのアクセスに関する仮定なしで候補モデルに適用することができる。
これにより、オープンウェイトとブラックボックスの両方に適合する。
我々は,SELECT-LLMを23のデータセット,156のモデル,多様なタスクファミリ,複数のテキスト評価指標で評価した。
あらゆる実験において、SELECT-LLMは全ての設定において最強のベースラインよりも改善され、アノテーションのコストは最高のモデル選択では81.8%、ほぼベストに近いモデル選択では84.78%まで削減された。
関連論文リスト
- Learning Generative Selection for Best-of-N [52.88943295436412]
目的の強化学習によって、小さな推論モデルによって強力なGenSelect能力が得られることを示す。
この結果は,小規模モデルにおける強力な生成的選択を解放するスケーラブルな手法として強化学習を確立した。
論文 参考訳(メタデータ) (2026-02-02T14:21:15Z) - Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process [58.265053900416895]
LLM-PeerReviewは、ピアレビューに触発された新しいフレームワークの上に構築されている。
スコアリングには、新たなLCM-as-a-Judgeテクニックを使用します。
推論にはグラフィカルモデルに基づく真理推論アルゴリズムを適用する。
最後に、最高スコア応答をベストアンサンブル出力として選択する。
論文 参考訳(メタデータ) (2025-12-29T05:25:49Z) - Active Model Selection for Large Language Models [18.985244406763258]
LLM SELECTORはLarge Language Models (LLM) のアクティブモデル選択のための最初のフレームワークである。
特に、任意のタスクに対して、LLM SELECTORは、タスクの最良のモデルについて最も有益なアノテートのための小さなクエリセットを適応的に選択する。
LLM SELECTORは、タスクに最適な最寄りのLCMを選択すると、アノテーションコストを最大59.62%削減する。
論文 参考訳(メタデータ) (2025-10-10T14:20:47Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。