論文の概要: Consistent and Distinctive: LLM Benchmark Efficiency via Maximum Independent Set Prompt Selection on Similarity Graphs
- arxiv url: http://arxiv.org/abs/2606.01400v1
- Date: Sun, 31 May 2026 18:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.685093
- Title: Consistent and Distinctive: LLM Benchmark Efficiency via Maximum Independent Set Prompt Selection on Similarity Graphs
- Title(参考訳): 一貫性と識別性: 類似グラフ上での最大独立セットプロンプト選択によるLLMベンチマーク効率
- Authors: Denica Kjorvezir, Marko Djukanović, Ana Gjorgjevikj, Gjorgjina Cenikj, Tome Eftimov,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を総合ベンチマークで評価するためのグラフベースのプロンプト選択フレームワークを提案する。
6つの埋め込みモデル,3つの距離測度,6%のしきい値,および4つのベンチマーク(GPQA, IFEval, MMLU-Pro, Omni-MATH)にまたがる4つのMISソルバを評価した。
- 参考スコア(独自算出の注目度): 4.397020178702767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models (LLMs) across comprehensive benchmarks is expensive and time-consuming. We propose a graph-based prompt selection framework that models each benchmark as a similarity graph -- nodes are prompts connected if their embedding-space distance falls above a configurable threshold -- and applies Maximum Independent Set (MIS) algorithms to select a maximally diverse, non-redundant subset. We evaluate four MIS solvers (CPLEX, GREEDY, Online-MIS, ReduMIS) across six embedding models, three distance measures, six percentile thresholds, and four benchmarks (GPQA, IFEval, MMLU-Pro, Omni-MATH) covering 66 LLMs. Our central hypothesis -- that repeated selection under different random seeds yields consistent LLM rankings that may also differ from the full-benchmark baseline -- is strongly confirmed: Kendall's $W \geq 0.90$ in 99.2\% of stochastic configurations (mean $W = 0.997 \pm 0.008$), while at higher percentile thresholds selected subsets achieve 25--48\% prompt reduction on average. Ranking divergence from the full benchmark ($ρ< 0.95$) occurs in only 15.95\% of configurations, concentrated at low thresholds ($p_{10}$--$p_{20}$) and benchmarks (GPQA, IFEval), identifying overly dense graphs as the primary failure mode.
- Abstract(参考訳): 大規模な言語モデル(LLM)を包括的なベンチマークで評価するのは高価で時間を要する。
本稿では,各ベンチマークを類似グラフとしてモデル化するグラフベースのプロンプト選択フレームワークを提案する。ノードは,その埋め込み空間距離が設定可能なしきい値を超えると,接続されるプロンプトであり,最大独立セット(MIS)アルゴリズムを適用して,最大多様で非冗長なサブセットを選択する。
我々は,6つの埋め込みモデル,3つの距離測度,6%閾値,および4つのベンチマーク(GPQA, IFEval, MMLU-Pro, Omni-MATH)の4つのMISソルバ(CPLEX, GREEDY, Online-MIS, ReduMIS)を評価した。
我々の中心的仮説は、異なるランダムシードの下で繰り返し選択すると、全ベンチマークベースラインと異なる一貫したLCMランキングが得られるというものであり、Kendallの$W \geq 0.90$ in 99.2\%の確率的構成(平均$W = 0.997 \pm 0.008$)に対して、選択されたサブセットは平均で25-48\%の速さで減少する。
完全なベンチマーク(ρ< 0.95$)からのランクのばらつきは、15.95 %の構成でのみ発生し、低しきい値(p_{10}$--$p_{20}$)とベンチマーク(GPQA, IFEval)に集中し、過度に密度の高いグラフを主要な障害モードとして識別する。
関連論文リスト
- BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs [14.085089126904101]
我々は、$k$-wiseランキングの原則となる基盤を提供するトーナメントグラフフレームワークを導入する。
それぞれ$k$-item比較すると、$binomk2$の完全なトーナメントがペアワイズで表示される。
我々は、アイテムのランクが確実に決定されたときを形式化し、情報ゲインを最大化する欲求クエリスケジュールを設計する。
論文 参考訳(メタデータ) (2026-02-05T08:41:00Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - Slm-mux: Orchestrating small language models for reasoning [52.461958665375896]
小型言語モデル(SLM)のオーケストレーションのための3段階的アプローチを提案する。
まず,複数のSLMを効果的にコーディネートするマルチモデルアーキテクチャであるSLM-MUXを紹介する。
SLM-MUXはわずか2つのSLMSでQwen 2.5 72BをGPQAとGSM8Kで上回り、MATHでのパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2025-10-06T17:49:58Z) - Maestro: Joint Graph & Config Optimization for Reliable AI Agents [53.71882250666667]
Maestro は LLM エージェントのための全体論的に依存しないフレームワークであり、エージェントの品質を最大化するためにグラフや構成を共同で検索する。
IFBenchとHotpotQAのベンチマークでは、MIPROv2、GEPA、GEPA+といった主要なプロンプトを平均12%--4.9%、それぞれ4.86%上回っている。
論文 参考訳(メタデータ) (2025-09-04T20:00:37Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Differentiable Quadratic Optimization For The Maximum Independent Set Problem [23.643727259409744]
pCQO-MISはグラフ内の数ノードでのみスケールし、数値エッジではないことを示す。
実験により,提案手法の有効性を,精度,サンプリング,データ中心アプローチと比較した。
論文 参考訳(メタデータ) (2024-06-27T21:12:48Z) - Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。
本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文 参考訳(メタデータ) (2022-09-16T01:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。