論文の概要: Evaluating LLMs When They Do Not Know the Answer: Statistical Evaluation of Mathematical Reasoning via Comparative Signals
- arxiv url: http://arxiv.org/abs/2602.03061v1
- Date: Tue, 03 Feb 2026 03:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.227931
- Title: Evaluating LLMs When They Do Not Know the Answer: Statistical Evaluation of Mathematical Reasoning via Comparative Signals
- Title(参考訳): 答えがわからない場合のLCMの評価:比較信号による数学的推論の統計的評価
- Authors: Zihan Dong, Zhixian Zhang, Yang Zhou, Can Jin, Ruijia Wu, Linjun Zhang,
- Abstract要約: 我々は,標準ラベル付き結果と,モデルが補助的推論連鎖を判断することで得られるペアワイズ比較信号とを組み合わせたフレームワークを開発する。
シミュレーション全体では, モデル出力ノイズの増加に伴い, 評価精度が大幅に向上し, ゲインが増大する。
GPQA Diamond、AIME 2025、GSM8Kの実験では、より正確な性能推定とより信頼性の高いモデルランキングが示されている。
- 参考スコア(独自算出の注目度): 18.612081365101464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating mathematical reasoning in LLMs is constrained by limited benchmark sizes and inherent model stochasticity, yielding high-variance accuracy estimates and unstable rankings across platforms. On difficult problems, an LLM may fail to produce a correct final answer, yet still provide reliable pairwise comparison signals indicating which of two candidate solutions is better. We leverage this observation to design a statistically efficient evaluation framework that combines standard labeled outcomes with pairwise comparison signals obtained by having models judge auxiliary reasoning chains. Treating these comparison signals as control variates, we develop a semiparametric estimator based on the efficient influence function (EIF) for the setting where auxiliary reasoning chains are observed. This yields a one-step estimator that achieves the semiparametric efficiency bound, guarantees strict variance reduction over naive sample averaging, and admits asymptotic normality for principled uncertainty quantification. Across simulations, our one-step estimator substantially improves ranking accuracy, with gains increasing as model output noise grows. Experiments on GPQA Diamond, AIME 2025, and GSM8K further demonstrate more precise performance estimation and more reliable model rankings, especially in small-sample regimes where conventional evaluation is pretty unstable.
- Abstract(参考訳): LLMにおける数学的推論の評価は、限られたベンチマークサイズと固有のモデル確率によって制約され、高分散精度推定とプラットフォーム間の不安定なランク付けをもたらす。
難しい問題では、LLMは正しい最終解を生成できないかもしれないが、2つの候補解のどちらが良いかを示す信頼できるペアワイズ比較信号を提供する。
この観測を利用して、標準ラベル付き結果と、モデルが補助的推論連鎖を判断することで得られるペアワイズ比較信号を組み合わせた統計的に効率的な評価フレームワークを設計する。
これらの比較信号を制御変数として扱い、補助的推論連鎖が観測される環境における効率的な影響関数(EIF)に基づく半パラメトリック推定器を開発する。
これにより、半パラメトリック効率境界を達成し、単純サンプル平均化よりも厳密な分散還元を保証し、原理化された不確かさ定量化の漸近正規性を認める一段階推定器が得られる。
シミュレーション全体を通して、我々のワンステップ推定器は、モデル出力ノイズが増大するにつれて、ランキング精度を大幅に向上する。
GPQAダイアモンド、AIME 2025、GSM8Kの実験では、特に従来の評価が不安定な小型のシステムにおいて、より正確な性能推定と信頼性の高いモデルランキングが示されている。
関連論文リスト
- Efficient Inference for Noisy LLM-as-a-Judge Evaluation [8.2511120576505]
大規模言語モデル(LLM)は、生成的AI出力の自動評価器としてますます使われている。
実際には、LLMの判断は根底にある真実の完全な予測であり、体系的な非ランダムな誤りを示すことができる。
論文 参考訳(メタデータ) (2026-01-08T22:46:26Z) - Bayesian Semiparametric Causal Inference: Targeted Doubly Robust Estimation of Treatment Effects [1.2833734915643464]
本稿では,平均治療効果(ATE)を推定するための半パラメトリックベイズ手法を提案する。
本手法では,ニュアンス推定によるバイアスを補正するベイズ偏差補正法を提案する。
広範囲なシミュレーションにより理論結果が確認され、正確な点推定と信頼区間が明確化される。
論文 参考訳(メタデータ) (2025-11-19T22:15:04Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Improving Value-based Process Verifier via Low-Cost Variance Reduction [24.609940184050043]
大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な成功を収めた。
しかし、特に数学のような複雑な分野において、それらの推論能力は依然として重要な課題である。
正解につながる部分的推論連鎖の確率を推定する値ベースのプロセス検証器は、推論を改善するための有望なアプローチである。
論文 参考訳(メタデータ) (2025-08-14T11:22:29Z) - Spectral Ranking Inferences based on General Multiway Comparisons [7.222667862159246]
本研究では,2段階のスペクトル法により,最大近似エスタと同じバニラ効率が得られることを示す。
有効な2サンプルランク試験法が提案されたのはこれが初めてである。
論文 参考訳(メタデータ) (2023-08-05T16:31:32Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Federated Edge Learning with Misaligned Over-The-Air Computation [36.39188653838991]
オーバーザエア計算(OAC)は、フェデレーションエッジラーニングのアップリンクで高速なモデル集約を実現する有望な技術です。
残留チャネルゲインミスマッチと非同期の存在下での最大確率(ml)推定器の設計は、オープンな問題である。
本稿では,フェデレートエッジ学習におけるOACの誤りを定式化し,白色マッチングフィルタとサンプリング方式を提案する。
論文 参考訳(メタデータ) (2021-02-26T17:19:56Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。