論文の概要: TRACE: Toulmin-based Reasoning Assessment through Constructive Elements for LLM CoT Evaluation
- arxiv url: http://arxiv.org/abs/2605.29656v1
- Date: Thu, 28 May 2026 09:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.12799
- Title: TRACE: Toulmin-based Reasoning Assessment through Constructive Elements for LLM CoT Evaluation
- Title(参考訳): TRACE:LLM CoT評価のための構成要素によるトルミンによる推論評価
- Authors: Yundong Kim, Heyoung Yang,
- Abstract要約: TRACEはChain-of-Thought推論プロセスを分析するメトリクスである。
7つの推論モデルにわたる26.3K QAサンプルの実験は、ベンチマークの精度と強い相関を示す。
TRACEは強化学習報酬信号として有効であり、精度のみのベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 0.5729426778193398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating open-ended outputs from large language models (LLMs) remains challenging due to the absence of ground truth. Existing metrics rely on final-answer accuracy or surface-level statistics, leaving the reasoning process itself unexamined. We introduce TRACE (Toulmin-based Reasoning Assessment through Constructive Elements), a metric that analyzes Chain-of-Thought (CoT) reasoning processes. Rather than judging outcomes, TRACE inspects how arguments are constructed by integrating Toulmin's argumentation theory with Flavell's metacognitive framework to assess reasoning structure. Experiments on 26.3K QA samples across 7 reasoning models show strong correlation with benchmark accuracy (r=0.74). Furthermore, TRACE is effective as a reinforcement learning reward signal, outperforming accuracy-only baselines. Together, these results indicate that logically sound reasoning leads to higher-quality answers. TRACE thus serves as a complementary metric for evaluating open-ended outputs. Code is available at https://github.com/hyyangkisti/trace.
- Abstract(参考訳): 大規模言語モデル(LLM)からのオープンエンドアウトプットの評価は、基礎的真理が欠如しているため、依然として困難である。
既存のメトリクスは、最終回答の正確さや表面レベルの統計に依存しており、推論プロセス自体が検討されていないままである。
TRACE(Toulmin-based Reasoning Assessment through Constructive Elements)は、CoT(Chain-of-Thought)推論プロセスを分析するメトリクスである。
TRACEは結果を判断するよりも、トゥールミンの議論理論とフラヴェルのメタ認知フレームワークを統合して推論構造を評価することによって、議論がどのように構築されるかを調べる。
7つの推論モデルにわたる26.3K QAサンプルの実験は、ベンチマーク精度と強い相関を示す(r=0.74)。
さらに、TRACEは強化学習報酬信号として有効であり、精度のみのベースラインよりも優れている。
これらの結果は、論理的に健全な推論が高品質な答えをもたらすことを示している。
したがって、TRACEはオープンな出力を評価するための補完的な指標として機能する。
コードはhttps://github.com/hyyangkisti/trace.comから入手できる。
関連論文リスト
- FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning [7.8668388431725695]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)推論によって強い推論性能を達成する。
最近の自己整合性に基づくアプローチは、精度をさらに向上するが、複数の推論軌道のサンプリングと集約が必要である。
本稿では,単一経路と複数経路の推論を適応的に選択するための単一経路推論軌道を解析する信頼度対応決定フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-09T22:34:06Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - EffiReason-Bench: A Unified Benchmark for Evaluating and Advancing Efficient Reasoning in Large Language Models [32.041688648831794]
EffiReason-Benchは、効率的な推論手法の厳密なクロスパラダイム評価のための統一ベンチマークである。
ステップバイステップ評価を実現するため,CommonsenseQAとLogiQAの認証済みCoTアノテーションを構築した。
本稿では,不連続性を伴わないスムーズで安定した評価を提供する経済トレードオフモデルに着想を得た原則的指標であるE3-Scoreを提案する。
論文 参考訳(メタデータ) (2025-11-13T11:14:46Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。
これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。
トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-10-23T14:30:37Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。
本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。
これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。