Fugu-MT 論文翻訳(概要): Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

論文の概要: Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

arxiv url: http://arxiv.org/abs/2604.11996v1
Date: Mon, 13 Apr 2026 19:37:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.090223
Title: Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces
Title（参考訳）: フィルタ推論スコア:モデルの最も信頼されたトレースに対する推論品質の評価
Authors: Manas Pathak, Xingyao Chen, Shuozhe Li, Amy Zhang, Liu Leqi,
Abstract要約: Filtered Reasoning Score (FRS)は、最も確実なトレースの上位K%だけを使用して推論品質を計算する。本稿では,忠実さ,一貫性,実用性,事実性といった次元に沿った推論トレースを評価する推論スコアを提案する。
参考スコア（独自算出の注目度）: 14.997092856930061
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Should we trust Large Language Models (LLMs) with high accuracy? LLMs achieve high accuracy on reasoning benchmarks, but correctness alone does not reveal the quality of the reasoning used to produce it. This highlights a fundamental limitation of outcome-based evaluation: models may arrive at correct answers through flawed reasoning, and models with substantially different reasoning capabilities can nevertheless exhibit similar benchmark accuracy, for example due to memorization or over-optimization. In this paper, we ask: given existing benchmarks, can we move beyond outcome-based evaluation to assess the quality of reasoning itself? We seek metrics that (1) differentiate models with similar accuracy and (2) are robust to variations in input prompts and generation configurations. To this end, we propose a reasoning score that evaluates reasoning traces along dimensions such as faithfulness, coherence, utility, and factuality. A remaining question is how to aggregate this score across multiple sampled traces. Naively averaging them is undesirable, particularly in long-horizon settings, where the number of possible trajectories grows rapidly, and low-confidence correct traces are more likely to be coincidental. To address this, we introduce the Filtered Reasoning Score (FRS), which computes reasoning quality using only the top-K% most confident traces. Evaluating with FRS, models that are indistinguishable under standard accuracy exhibit significant differences in reasoning quality. Moreover, models with higher FRS on one benchmark tend to perform better on other reasoning benchmarks, in both accuracy and reasoning quality. Together, these findings suggest that FRS complements accuracy by capturing a model's transferable reasoning capabilities. We open source our evaluation codebase: https://github.com/Manas2006/benchmark_reproducibility.
Abstract（参考訳）: 大規模言語モデル(LLM)を高い精度で信頼すべきだろうか? LLMは推論ベンチマークで高い精度を達成するが、正確性だけではそれを生成するのに使われた推論の品質を明らかにしない。モデルは欠点のある推論を通じて正しい答えに到達し、実質的に異なる推論能力を持つモデルは、にもかかわらず、記憶や過度な最適化などにより、同様のベンチマーク精度を示すことができる。本稿では、既存のベンチマークから、結果に基づく評価を超えて、推論自体の品質を評価することができるか? 我々は,(1)類似の精度でモデルを区別し,(2)入力プロンプトや生成構成の変動に頑健な指標を求める。そこで本稿では,忠実さ,一貫性,実用性,事実性といった次元に沿った推論トレースを評価する推論スコアを提案する。残る疑問は、このスコアを複数のサンプルトレースに集約する方法である。特にロングホライゾンでは、軌道の速度が急速に増加し、低信頼の正確な痕跡が偶然に現れる傾向にある。そこで我々はFRS(Filted Reasoning Score)を導入し,最も信頼度の高いトレースのみを用いて推論品質を算出する。 FRSを用いて評価すると、標準精度で区別できないモデルは推論品質に有意な違いを示す。さらに、1つのベンチマークで高いFRSを持つモデルは、精度と推論品質の両方において、他の推論ベンチマークよりも優れたパフォーマンスを示す傾向にある。これらの結果から,FRSはモデルの伝達可能な推論能力を捉えることによって精度を補完することが明らかとなった。私たちは評価コードベースをオープンソースにしています。

関連論文リスト

TFRBench: A Reasoning Benchmark for Evaluating Forecasting Systems [52.91956121737963]
我々は,予測システムの推論能力を評価するための最初のベンチマークであるTFRBenchを紹介する。本稿では,反復的検証ループを用いて,数値的に基底となる推論トレースを合成するマルチエージェント・フレームワークを提案する。評価は,この推論が因果的に有効であること,評価に有用であること,生成したトレースでLSMを誘導することにより,予測精度が大幅に向上することを確認した。
論文参考訳（メタデータ） (2026-04-07T03:04:45Z)
Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文参考訳（メタデータ） (2025-10-28T11:01:10Z)
Reasoning's Razor: Reasoning Improves Accuracy but Can Hurt Recall at Critical Operating Points in Safety and Hallucination Detection [21.190105743961798]
推論は大規模言語モデル(LLM)の中心パラダイムとなっている。厳密な低偽陽性率体制下での分類タスクの推論に関する最初の体系的研究について述べる。思考(推論強化)生成は全体的な精度を向上するが、実用に不可欠な低FPRしきい値では性能が低下する。
論文参考訳（メタデータ） (2025-10-23T23:23:36Z)
What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-10-23T14:30:37Z)
The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs [3.9977256267361754]
そこで本研究では,日本人児童のライドルから構築した費用効果評価指標であるNazonazoについて紹介する。 GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
論文参考訳（メタデータ） (2025-09-18T07:50:04Z)
Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It [1.6261897792391753]
我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使われている推論ベンチマークの体系的な監査を行う。ベンチマーク項目と評価手法の両方において,広範な欠陥を明らかにする。
論文参考訳（メタデータ） (2025-06-30T13:57:28Z)
Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文参考訳（メタデータ） (2025-04-02T12:58:42Z)
Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。本稿では,予測の基盤性を考慮した新しい評価手法を提案する。提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文参考訳（メタデータ） (2025-03-24T20:14:46Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。