論文の概要: Measuring AI Reasoning: A Guide for Researchers
- arxiv url: http://arxiv.org/abs/2605.02442v1
- Date: Mon, 04 May 2026 10:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.242495
- Title: Measuring AI Reasoning: A Guide for Researchers
- Title(参考訳): AI推論の測定 - 研究者のためのガイド
- Authors: Munachiso Samuel Nwadike, Zangir Iklassov, Kareem Ali, Rifo Genadi, Kentaro Inui,
- Abstract要約: 我々は、最終回答の精度のみではなく、適応的多段階探索の証拠によって推論を評価するべきであると論じている。
拡張性のあるアーキテクチャにおける単一のフォワードパスは、そのような可変深度計算を実現する能力において、構造的に制限されていることを示す。
プロセスベース評価へのシフトを議論し、中間的推論トレースの忠実度と妥当性を第一級評価対象として評価する。
- 参考スコア(独自算出の注目度): 19.301617369098135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we offer a guide for researchers on evaluating reasoning in language models, building the case that reasoning should be assessed through evidence of adaptive, multi-step search rather than final-answer accuracy alone. Under an evaluation-oriented definition, reasoning requires selecting intermediate steps and halting according to input-dependent conditions, which we formalize as a search-like procedure. We show that single forward passes in scalable architectures are structurally limited in their ability to realize such variable-depth computation, motivating intermediate decoding and externalized reasoning traces as appropriate evaluation interfaces. Central to our argument is that final-answer accuracy alone is an insufficient measure of reasoning, because it provides little ability to diagnose or debug the underlying processes that produce individual solutions in frontier models. We therefore argue for a shift toward process-based evaluation, in which reasoning is assessed through the faithfulness and validity of intermediate reasoning traces as first-class evaluation targets.
- Abstract(参考訳): 本稿では、言語モデルにおける推論を評価するための研究者のためのガイドを提供し、最終回答精度のみではなく、適応的多段階探索の証拠を用いて推論を評価するべきである。
評価指向の定義では、推論は中間ステップを選択し、入力依存条件に従って停止する必要がある。
拡張性のあるアーキテクチャにおける単一のフォワードパスは、そのような可変深度計算を実現し、中間復号化と外部化推論トレースを適切な評価インターフェースとして動機付ける能力において、構造的に制限されていることを示す。
なぜなら、フロンティアモデルで個々のソリューションを生成する基盤となるプロセスの診断やデバッグを行う能力はほとんどないからです。
そこで我々は,プロセスベース評価へのシフトを論じ,中間的推論トレースの忠実度と妥当性を第一級評価対象として評価する。
関連論文リスト
- Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces [0.0]
Agent Execution Record (AER) は構造化された推論プリミティブであり、すべてのステップで第一級クエリ可能なフィールドとしてインテント、観察、推論をキャプチャする。
AERが集団レベルの行動分析を可能にする方法を示す: 推論パターンマイニング、信頼度校正、クロスエージェント比較、モックリプレイによる反事実回帰テスト。
論文 参考訳(メタデータ) (2026-03-23T08:27:54Z) - Unmasking Reasoning Processes: A Process-aware Benchmark for Evaluating Structural Mathematical Reasoning in LLMs [20.82580343824728]
最近の大規模言語モデル (LLM) は、多くの確立された数学的推論ベンチマークにおいて、ほぼ飽和の精度を達成している。
この飽和はテンプレートベースの計算と浅い算術分解の優位性に起因している。
本稿ではReasoningMath-Plusについて紹介する。
論文 参考訳(メタデータ) (2026-01-31T07:09:17Z) - Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It [1.6261897792391753]
我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使われている推論ベンチマークの体系的な監査を行う。
ベンチマーク項目と評価手法の両方において,広範な欠陥を明らかにする。
論文 参考訳(メタデータ) (2025-06-30T13:57:28Z) - REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-04-04T15:57:28Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Rationale-Augmented Ensembles in Language Models [53.45015291520658]
我々は、数発のテキスト内学習のための合理化促進策を再考する。
我々は、出力空間における合理的サンプリングを、性能を確実に向上させるキーコンポーネントとして特定する。
有理拡張アンサンブルは既存のプロンプト手法よりも正確で解釈可能な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-02T06:20:57Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。