論文の概要: An Interpretable and Scalable Framework for Evaluating Large Language Models
- arxiv url: http://arxiv.org/abs/2605.07046v1
- Date: Thu, 07 May 2026 23:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.679402
- Title: An Interpretable and Scalable Framework for Evaluating Large Language Models
- Title(参考訳): 大規模言語モデル評価のための解釈可能でスケーラブルなフレームワーク
- Authors: Xinhao Qu, Qiang Heng, Hao Zeng, Xiaoqian Liu,
- Abstract要約: 大規模言語モデル(LLM)の評価はますます重要になっているが、標準的なベンチマーク手法は平均精度に依存している。
アイテム応答理論(IRT)は、潜在モデル能力とアイテム特性をモデリングするための原則化されたフレームワークを提供する。
本稿では,LLM評価のための大規模化最小化原理に基づく解釈可能かつスケーラブルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.322241501687715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation of large language models (LLMs) is increasingly critical, yet standard benchmarking methods rely on average accuracy, overlooking both the inherent stochasticity of LLM outputs and the heterogeneity of benchmark items. Item Response Theory (IRT) offers a principled framework for modeling latent model abilities and item characteristics, but conventional methods are computationally expensive and numerically unstable, limiting large-scale implementations. To address these challenges, we propose an interpretable and scalable framework for LLM evaluation based on the majorization-minimization principle. Our approach reformulates the problem as a sequence of constrained matrix factorization subproblems, enabling stable and efficient parameter estimation with theoretical guarantees for identifiability and convergence. Experiments on synthetic and real-world datasets, including MATH-500 and six Open LLM Leaderboard benchmarks, demonstrate that our method achieves superior scalability and interpretability. It delivers orders-of-magnitude speedups over competing methods while maintaining comparable or even higher estimation accuracy. Our results align with established scaling laws and offer insights into item difficulty and discrimination, informing more principled benchmark design.
- Abstract(参考訳): 大規模言語モデル (LLMs) の評価はますます重要になっているが、標準的なベンチマーク手法は平均精度に依存しており、LLM出力の固有確率性とベンチマーク項目の不均一性の両方を見越している。
アイテム応答理論(IRT)は、潜在モデル能力とアイテム特性をモデル化するための原則的なフレームワークを提供するが、従来の手法は計算コストが高く、数値的に不安定であり、大規模実装を制限している。
これらの課題に対処するため,大規模化最小化原理に基づくLCM評価のための解釈可能かつスケーラブルなフレームワークを提案する。
提案手法は, 制約行列分解サブプロブレムの列として問題を再構成し, 同定可能性と収束性に関する理論的保証とともに, 安定かつ効率的なパラメータ推定を可能にする。
MATH-500と6つのOpen LLM Leaderboardベンチマークを含む合成および実世界のデータセットの実験は、我々の手法が優れたスケーラビリティと解釈可能性を実現することを実証している。
競合するメソッドよりも桁違いのスピードアップを提供しながら、同等あるいはそれ以上の推定精度を維持している。
我々の結果は、確立されたスケーリング法則と一致し、アイテムの難易度と差別に関する洞察を与え、より原則化されたベンチマーク設計を通知します。
関連論文リスト
- Scalable Text-Embedding-informed Cognitive Diagnosis of Large Language Models [4.86897953445012]
大規模言語モデル(LLM)は、様々なベンチマークで顕著なパフォーマンスを達成した。
既存の評価プラクティスは、根底にある推論能力の曖昧な粗い要約メトリクスに大きく依存しています。
本研究では,認知診断モデル(CDM)を心理測定に適応させる新しい手法を提案する。
論文 参考訳(メタデータ) (2026-03-16T00:14:47Z) - RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。
複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-12T21:28:46Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - STEM: Efficient Relative Capability Evaluation of LLMs through Structured Transition Samples [3.41981716024098]
大規模言語モデル(LLM)の評価は、モデル機能が急速に進歩するにつれて、ますます困難になっている。
軽量かつ解釈可能な評価フレームワークとして textbfStructured textbfTransition textbfEvaluation textbfMethod (STEM) を提案する。
論文 参考訳(メタデータ) (2025-08-16T16:36:43Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。