論文の概要: Latency-Response Theory Model: Evaluating Large Language Models via Response Accuracy and Chain-of-Thought Length
- arxiv url: http://arxiv.org/abs/2512.07019v2
- Date: Thu, 11 Dec 2025 02:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 14:11:15.184448
- Title: Latency-Response Theory Model: Evaluating Large Language Models via Response Accuracy and Chain-of-Thought Length
- Title(参考訳): 遅延応答理論モデル:応答精度と待ち行列長による大規模言語モデルの評価
- Authors: Zhiyu Xu, Jia Liu, Yixin Wang, Yuqi Gu,
- Abstract要約: LLM-Response Theory(LaRT)を提案し、応答精度とCoT長を、潜時能力、潜時速度、それらの間のキー相関パラメータを導入してモデル化する。
LaRTはIRTと異なるLLMランキングを獲得し、予測能力、アイテム効率、ランキングの妥当性、評価効率などを含む複数の主要な評価指標でIRTを上回っている。
- 参考スコア(独自算出の注目度): 31.900167741342354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of Large Language Models (LLMs) necessitates valid evaluation methods to guide downstream applications and actionable future improvements. The Item Response Theory (IRT) has recently emerged as a promising framework for evaluating LLMs via their response accuracy. Beyond simple response accuracy, LLMs' chain of thought (CoT) lengths serve as a vital indicator of their reasoning ability. To leverage the CoT length information to assist the evaluation of LLMs, we propose Latency-Response Theory (LaRT) to jointly model the response accuracy and CoT length by introducing the latent ability, latent speed, and a key correlation parameter between them. We derive an efficient estimation algorithm and establish rigorous identifiability results for the population parameters to ensure the statistical validity of estimation. Theoretical asymptotic analyses and simulation studies demonstrate LaRT's advantages over IRT in terms of higher estimation accuracy and shorter confidence intervals for latent traits. A key finding is that the asymptotic estimation precision of the latent ability under LaRT exceeds that of IRT whenever the latent ability and latent speed are correlated. We collect real responses from diverse LLMs on popular benchmark datasets. The application of LaRT reveals a strong negative correlation between the latent ability and latent speed in all benchmarks, with stronger correlation for more difficult benchmarks. This finding supports the intuition that higher reasoning ability correlates with slower speed and longer response latency. LaRT yields different LLM rankings than IRT and outperforms IRT across multiple key evaluation metrics including predictive power, item efficiency, ranking validity, and LLM evaluation efficiency. Code and data are available at https://github.com/Toby-X/Latency-Response-Theory-Model.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及は、下流アプリケーションと実行可能な将来の改善を導く有効な評価方法を必要とする。
項目応答理論(IRT)は、最近、その応答精度を通じてLCMを評価するための有望なフレームワークとして登場した。
単純な応答精度の他に、LLMの思考の連鎖(CoT)の長さは推論能力の重要な指標である。
本研究では,LLMの評価を支援するために,遅延応答理論 (Latency-Response Theory, LaRT) を提案する。
我々は,効率的な推定アルゴリズムを導出し,推定の統計的妥当性を確保するために,人口パラメータの厳密な識別性を示す。
理論的漸近解析とシミュレーション研究は、遅延特性に対する高い推定精度と短い信頼区間の観点から、IRTに対するLaRTの優位性を示す。
重要な発見は、潜伏能力と潜伏速度が相関するたびに LaRT の潜伏能力の漸近推定精度が IRT のそれを超えることである。
人気のあるベンチマークデータセット上で,多様なLCMから実応答を収集する。
LaRTの適用により、全てのベンチマークにおいて潜時能力と潜時速度の間に強い負の相関が示され、より難しいベンチマークに対して強い相関が示される。
この発見は、高い推論能力は、速度が遅く、レスポンスのレイテンシが長いことと関連している、という直感を支持する。
LaRTはIRTと異なるLLMランキングを獲得し、予測能力、アイテム効率、ランキング妥当性、LLM評価効率などを含む複数の主要な評価指標でIRTを上回っている。
コードとデータはhttps://github.com/Toby-X/Latency-Response-Theory-Modelで入手できる。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Optimal Aggregation of LLM and PRM Signals for Efficient Test-Time Scaling [34.20750590384272]
プロセス報酬モデル(PRM)は、テストタイムスケーリング(TTS)の基礎である。
PRMは、大きな言語モデル(LLM)から最適な応答を検証し、選択するために設計されている。
論文 参考訳(メタデータ) (2025-10-15T09:08:51Z) - Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers [17.658542084440082]
大規模言語モデル(LLM)は,情報検索におけるタスクの再分類に応用され,高い性能を実現している。
既存の研究では、遅延、フォワードパス数、入力トークン、出力トークンなどのプロキシメトリクスを使用して、LCMベースのリランカの効率を評価する。
本稿では、PetaFLOP当たりのランキング品質(例えば、NDCGやMRR)と、PetaFLOP当たりのクエリ数(PetaFLOPあたりのクエリ数)を測るRCPを提案する。
論文 参考訳(メタデータ) (2025-07-08T17:56:28Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [39.61818305829112]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。
PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。
我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文 参考訳(メタデータ) (2025-05-25T15:17:57Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。