論文の概要: EvalQReason: A Framework for Step-Level Reasoning Evaluation in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.02295v1
- Date: Mon, 02 Feb 2026 16:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.294606
- Title: EvalQReason: A Framework for Step-Level Reasoning Evaluation in Large Language Models
- Title(参考訳): EvalQReason: 大規模言語モデルにおけるステップレベル推論評価フレームワーク
- Authors: Shaima Ahmad Freja, Ferhat Ozgur Catak, Betul Yurdem, Chunming Rong,
- Abstract要約: ステップレベルの確率分布解析によりLLM推論品質を定量化するフレームワークであるEvalQReasonを提案する。
このフレームワークは、隣接する推論ステップ間の局所的コヒーレンスを測定するCSD(Consecutive Step Divergence)と、最終回答とグローバルなアライメントを評価するSFC(Step-to-Final Convergence)という2つの補完アルゴリズムを導入している。
- 参考スコア(独自算出の注目度): 0.8399688944263844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in critical applications requiring reliable reasoning, yet their internal reasoning processes remain difficult to evaluate systematically. Existing methods focus on final-answer correctness, providing limited insight into how reasoning unfolds across intermediate steps. We present EvalQReason, a framework that quantifies LLM reasoning quality through step-level probability distribution analysis without requiring human annotation. The framework introduces two complementary algorithms: Consecutive Step Divergence (CSD), which measures local coherence between adjacent reasoning steps, and Step-to-Final Convergence (SFC), which assesses global alignment with final answers. Each algorithm employs five statistical metrics to capture reasoning dynamics. Experiments across mathematical and medical datasets with open-source 7B-parameter models demonstrate that CSD-based features achieve strong predictive performance for correctness classification, with classical machine learning models reaching F1=0.78 and ROC-AUC=0.82, and sequential neural models substantially improving performance (F1=0.88, ROC-AUC=0.97). CSD consistently outperforms SFC, and sequential architectures outperform classical machine learning approaches. Critically, reasoning dynamics prove domain-specific: mathematical reasoning exhibits clear divergence-based discrimination patterns between correct and incorrect solutions, while medical reasoning shows minimal discriminative signals, revealing fundamental differences in how LLMs process different reasoning types. EvalQReason enables scalable, process-aware evaluation of reasoning reliability, establishing probability-based divergence analysis as a principled approach for trustworthy AI deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、信頼性の高い推論を必要とする重要なアプリケーションにますますデプロイされているが、内部の推論プロセスは体系的に評価することが困難である。
既存の手法は最終回答の正しさに重点を置いており、中間ステップで推論がどのように展開されるかについての限られた洞察を与えている。
EvalQReasonは、人間のアノテーションを必要とせずにステップレベルの確率分布解析によってLCM推論品質を定量化するフレームワークである。
このフレームワークは、隣接する推論ステップ間の局所的コヒーレンスを測定するCSD(Consecutive Step Divergence)と、最終回答とグローバルなアライメントを評価するSFC(Step-to-Final Convergence)という2つの補完アルゴリズムを導入している。
各アルゴリズムは推論力学を捉えるために5つの統計指標を用いる。
オープンソースの7Bパラメータモデルを用いた数学的および医学的なデータセットによる実験では、古典的な機械学習モデルはF1=0.78とROC-AUC=0.82に到達し、シーケンシャルニューラルネットワークモデルはパフォーマンスを大幅に向上する(F1=0.88、ROC-AUC=0.97)。
CSDは一貫してSFCより優れており、シーケンシャルアーキテクチャは古典的な機械学習アプローチより優れている。
数学的推論は正解と誤解の間に明確な分岐に基づく識別パターンを示し、医学的推論は最小限の識別的信号を示し、LLMが異なる推論タイプをどのように処理するかに根本的な違いを示す。
EvalQReasonは、信頼性推論のスケーラブルなプロセス認識評価を可能にし、信頼できるAIデプロイメントのための原則化されたアプローチとして確率ベースの分散分析を確立する。
関連論文リスト
- Unmasking Reasoning Processes: A Process-aware Benchmark for Evaluating Structural Mathematical Reasoning in LLMs [20.82580343824728]
最近の大規模言語モデル (LLM) は、多くの確立された数学的推論ベンチマークにおいて、ほぼ飽和の精度を達成している。
この飽和はテンプレートベースの計算と浅い算術分解の優位性に起因している。
本稿ではReasoningMath-Plusについて紹介する。
論文 参考訳(メタデータ) (2026-01-31T07:09:17Z) - Beyond Outcome Verification: Verifiable Process Reward Models for Structured Reasoning [14.632557283678898]
検証可能なプロセスリワードモデル(VPRM)は、中間推論ステップを決定論的、ルールベースの検証によってチェックする強化学習フレームワークである。
医療エビデンス合成のためのリスク・オブ・バイアス評価にVPRMを適用した。
その結果、VPRMは最先端モデルよりも20%高いF1、検証可能な結果報酬より6.5%高いF1を達成することがわかった。
論文 参考訳(メタデータ) (2026-01-23T23:22:20Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning [31.861874030715953]
サンプリングに基づくテスト時間スケーリング手法を解析するための最初の理論的枠組みを提供する。
RPCは2つの重要なコンポーネント、パープレキシティ・一貫性と推論・プルーニングを通じて、理論的な洞察を活用するハイブリッド手法です。
RPCは、信頼性を向上するだけでなく、サンプリングコストを50%削減しながら、自己整合性に匹敵する推論性能を達成する。
論文 参考訳(メタデータ) (2025-10-17T08:59:30Z) - PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-03T17:09:03Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - An Operational Perspective to Fairness Interventions: Where and How to
Intervene [9.833760837977222]
フェアネス介入の評価と文脈化のための包括的枠組みを提案する。
予測パリティに関するケーススタディで、我々のフレームワークを実証する。
グループデータを使わずに予測パリティを実現することは困難である。
論文 参考訳(メタデータ) (2023-02-03T07:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。