論文の概要: RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty
- arxiv url: http://arxiv.org/abs/2602.12424v1
- Date: Thu, 12 Feb 2026 21:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.762568
- Title: RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty
- Title(参考訳): RankLLM:質問難の定量化によるLLMの重み付け
- Authors: Ziqian Zhang, Xingjian Hu, Yue Huang, Kai Zhang, Ruoxi Chen, Yixin Liu, Qingsong Wen, Kaidi Xu, Xiangliang Zhang, Neil Zhenqiang Gong, Lichao Sun,
- Abstract要約: RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。
複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
- 参考スコア(独自算出の注目度): 102.02839046225468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks establish a standardized evaluation framework to systematically assess the performance of large language models (LLMs), facilitating objective comparisons and driving advancements in the field. However, existing benchmarks fail to differentiate question difficulty, limiting their ability to effectively distinguish models' capabilities. To address this limitation, we propose RankLLM, a novel framework designed to quantify both question difficulty and model competency. RankLLM introduces difficulty as the primary criterion for differentiation, enabling a more fine-grained evaluation of LLM capabilities. RankLLM's core mechanism facilitates bidirectional score propagation between models and questions. The core intuition of RankLLM is that a model earns a competency score when it correctly answers a question, while a question's difficulty score increases when it challenges a model. Using this framework, we evaluate 30 models on 35,550 questions across multiple domains. RankLLM achieves 90% agreement with human judgments and consistently outperforms strong baselines such as IRT. It also exhibits strong stability, fast convergence, and high computational efficiency, making it a practical solution for large-scale, difficulty-aware LLM evaluation.
- Abstract(参考訳): ベンチマークは、大規模言語モデル(LLM)の性能を体系的に評価するための標準化された評価フレームワークを確立し、客観的な比較を容易にし、この分野の進歩を促進する。
しかし、既存のベンチマークは問題の難しさを区別できず、モデルの能力を効果的に区別する能力を制限する。
この制限に対処するため,質問の難易度とモデル能力の両面を定量化する新しいフレームワークである RankLLM を提案する。
RankLLMは、差別化のための主要な基準として難易度を導入し、LLM能力をよりきめ細かな評価を可能にした。
RankLLMのコアメカニズムは、モデルと質問間の双方向スコアの伝搬を促進する。
RankLLMの中核的な直感は、モデルが問題に正しく答えると能力スコアを得るのに対して、質問の難易度スコアはモデルに挑戦するときに増加することである。
このフレームワークを用いて、複数のドメインにまたがる35,550の質問に対して、30のモデルを評価する。
RankLLMは、人間の判断と90%の合意を達成し、IRTのような強力なベースラインを一貫して上回る。
また、高い安定性、高速収束、高い計算効率を示し、大規模かつ困難に配慮したLCM評価のための実用的なソリューションとなっている。
関連論文リスト
- Estimating Exam Item Difficulty with LLMs: A Benchmark on Brazil's ENEM Corpus [11.916129241436584]
大規模言語モデル(LLM)は、教育コンテンツを生成するためにますます多くデプロイされている。
我々は1031の質問に対して10のプロプライエタリかつオープンウェイトなLCMをIRTパラメータに対してベンチマークする。
最良のモデルでは、適度なランク相関が達成されているが、体系的に難易度を過小評価し、マルチモーダルアイテムで著しく劣化する。
論文 参考訳(メタデータ) (2026-02-06T11:44:18Z) - JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。
解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文 参考訳(メタデータ) (2025-11-20T01:14:39Z) - SKATE, a Scalable Tournament Eval: Weaker LLMs differentiate between stronger ones using verifiable challenges [2.184775414778289]
大規模言語モデル(LLM)が互いに検証可能なタスクを生成することによって競合する新しい評価フレームワークであるSKATEを紹介する。
私たちのコアは、タスクセットとソルバの両方のモデルとしての評価をゲームとして扱うことです。
TrueSkillベースのランキングシステムを用いて、6つのLCMを評価し、(1)より弱いモデルでは、より強力なモデルを確実に識別し、スコア付けすることができ、(2)LSMベースのシステムは、自己参照の振る舞いを可能とし、自己の能力に合わせた質問を生成し、(3)SKATEは自動的に、きめ細かな表面を呈する。
論文 参考訳(メタデータ) (2025-08-08T08:16:40Z) - Criteria-Based LLM Relevance Judgments [5.478764356647438]
大規模言語モデル(LLM)は、プロンプトを通じて関連ラベルを直接生成することで、スケーラブルなソリューションを提供する。
LLMに基づく関連判断のための多基準フレームワークを提案し、関連性の概念を複数の基準に分解する。
以上の結果から,マルチクオリトリア判定はシステムランキング・リーダーボードの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-07-13T04:21:21Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。
コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。
このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。
我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文 参考訳(メタデータ) (2025-03-17T16:15:02Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。