論文の概要: Measuring Reasoning Quality in LLMs: A Multi-Dimensional Behavioral Framework
- arxiv url: http://arxiv.org/abs/2605.24661v1
- Date: Sat, 23 May 2026 17:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.301569
- Title: Measuring Reasoning Quality in LLMs: A Multi-Dimensional Behavioral Framework
- Title(参考訳): LLMにおける推論品質の測定:多次元挙動フレームワーク
- Authors: Ali Şenol, Garima Agrawal, Huan Liu,
- Abstract要約: 本研究では,LLMにおける推論品質を測定するための多次元統合フレームワークを提案する。
4つのベンチマークから975項目にまたがる7つのLCM実験により、このフレームワークは精度のみのメトリクスから見えない振る舞いを明らかにしている。
- 参考スコア(独自算出の注目度): 9.601233098598456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have achieved remarkable success in complex reasoning tasks, yet current evaluation approaches predominantly rely on final-answer correctness, offering limited insight into the underlying reasoning processes that produce those answers. To address this gap, this study proposes a unified multi-dimensional framework for measuring reasoning quality in LLMs from a behavioral perspective, operationalizing six theoretically grounded dimensions: Correctness (CQ), Consistency (CS), Robustness (RS), Logical Coherence (LS), Efficiency (ES), and Stability (SS). Extensive experiments on seven LLMs across 975 items from four benchmarks demonstrate that the framework reveals behaviors invisible to accuracy-only metrics. Notably, logical coherence is orthogonal to correctness (r = -0.172, ns), confirming that correct answers can arise from incoherent reasoning, while Claude-Haiku-4.5 achieves the highest multi-dimensional score (Q_bal = 0.778). Furthermore, the framework exposes critical ranking inversions: DeepSeek-V3 ranks second under accuracy-priority but fifth under legal/compliance weighting, a reversal that single-metric evaluation cannot detect. Discriminant validity confirms 11/15 dimension pairs are independent (|r| < 0.50), providing psychometric support for treating each dimension as a distinct signal. The dimensional profiles produced by the framework directly support three classes of deployment decision: identifying models whose reasoning traces would fail accountability audits despite correct final answers (LS--CQ orthogonality); preventing ranking errors caused by accuracy-only benchmarking; and ensuring that no single metric silently substitutes for the six independent signals the framework captures.
- Abstract(参考訳): LLMは複雑な推論タスクにおいて顕著な成功を収めてきたが、現在の評価手法は最終回答の正しさに大きく依存しており、それらの答えを生成する基礎となる推論プロセスについて限られた洞察を与えている。
このギャップに対処するため, 行動の観点からLLMの推論品質を測定するための統一された多次元フレームワークを提案し, 正確性(CQ), 一貫性(CS), ロバスト性(RS), 論理的一貫性(LS), 効率性(ES), 安定性(SS)の6つの理論的基礎的次元を運用した。
4つのベンチマークから975項目にまたがる7つのLLMに関する大規模な実験により、このフレームワークは精度のみのメトリクスから見えない振る舞いを明らかにしている。
特に、論理的コヒーレンス(英語版)は正当性(r = -0.172, ns)に直交し、正解が不完全推論から生じることを確認する一方で、クロード=ハイク-4.5は最も高い多次元スコア(Q_bal = 0.778)を得る。
DeepSeek-V3は精度の優先度では2位だが、法的/コンプライアンスの重み付けでは5位である。
11/15次元対が独立(|r| < 0.50)であることを確認し、各次元を別個の信号として扱うための心理学的支援を提供する。
正確な最終回答(LS--CQ直交性)にもかかわらず、推論トレースが原因で説明責任監査が失敗するモデルを特定すること、精度のみのベンチマークによるランキングエラーを防ぐこと、フレームワークがキャプチャする6つの独立した信号に対して、単一のメトリクスが静かに代わることを保証すること。
関連論文リスト
- Measuring Five-Nines Reliability: Sample-Efficient LLM Evaluation in Saturated Benchmarks [45.86413490112477]
大規模言語モデル(LLM)は信頼性に敏感なアプリケーションで使用される。
厳密な信頼境界を持つ稀な失敗確率を推定するには、違法に大きなLSM推論サイズが必要である。
そこで本研究では,クロスエントロピー手法を用いて,故障確率入力に集中したサンプリング分布を学習する。
論文 参考訳(メタデータ) (2026-05-11T20:23:44Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Certainty robustness: Evaluating LLM stability under self-challenging prompts [0.5156484100374058]
大規模言語モデル(LLM)は、確実性や真実を推論する明確なメカニズムが欠如しているにもかかわらず、高い自信を持って答えを提示することが多い。
本稿では,LLMの安定性と適応性のバランス性を評価するための2ターン評価フレームワークであるCertainty Robustness Benchmarkを紹介する。
我々はLiveBenchの200の推論と数学の質問を用いて、4つの最先端LCMを評価し、正当性のある自己補正と正当性のない答えの変化を区別する。
論文 参考訳(メタデータ) (2026-02-10T18:07:51Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - The Knowledge-Reasoning Dissociation: Fundamental Limitations of LLMs in Clinical Natural Language Inference [13.59675117792588]
大規模言語モデルは、データとパラメータをスケーリングすることで、ますます構造化され、一般化可能な内部表現を取得すると仮定されることが多い。
本研究は,4つの理性家族からなる臨床トライアル自然言語帰属ベンチマークを導入することで,この仮定を疑問視する。
各項目は、ターゲットとなるグラウンド知識とメタレベル推論検証プローブと組み合わせて、推論の失敗から事実アクセスの失敗を解離させる。
論文 参考訳(メタデータ) (2025-08-14T16:01:10Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。