論文の概要: Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability
- arxiv url: http://arxiv.org/abs/2602.17544v1
- Date: Thu, 19 Feb 2026 16:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.223533
- Title: Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability
- Title(参考訳): 再利用性と検証可能性による耐火性評価
- Authors: Shashank Aggarwal, Ram Vikas Mishra, Amit Awekar,
- Abstract要約: 再利用可能性と検証可能性という2つの新しい尺度を導入する。
我々は、Thinker-Executorフレームワークを使用してCoT生成を実行から分離する。
その結果,再現性と検証性は標準精度と相関しないことがわかった。
- 参考スコア(独自算出の注目度): 0.726437825413781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent IR pipelines for tasks such as search and ranking, LLM-based agents exchange intermediate reasoning in terms of Chain-of-Thought (CoT) with each other. Current CoT evaluation narrowly focuses on target task accuracy. However, this metric fails to assess the quality or utility of the reasoning process itself. To address this limitation, we introduce two novel measures: reusability and verifiability. We decouple CoT generation from execution using a Thinker-Executor framework. Reusability measures how easily an Executor can reuse the Thinker's CoT. Verifiability measures how frequently an Executor can match the Thinker's answer using the CoT. We evaluated four Thinker models against a committee of ten Executor models across five benchmarks. Our results reveal that reusability and verifiability do not correlate with standard accuracy, exposing a blind spot in current accuracy-based leaderboards for reasoning capability. Surprisingly, we find that CoTs from specialized reasoning models are not consistently more reusable or verifiable than those from general-purpose LLMs like Llama and Gemma.
- Abstract(参考訳): 検索やランキングなどのタスクのためのマルチエージェントIRパイプラインでは、LLMベースのエージェントは、Chain-of-Thought(CoT)という用語で中間的推論を交換する。
現在のCoT評価では、ターゲットタスクの精度に焦点が当てられている。
しかし、この計量は推論プロセス自体の品質や有用性を評価するのに失敗する。
この制限に対処するために、再利用性と検証性という2つの新しい手段を導入する。
我々は、Thinker-Executorフレームワークを使用してCoT生成を実行から分離する。
再利用性は、ExecutorがThinkerのCoTをいかに簡単に再利用できるかを測定する。
検証可能性(Verifiability)は、ExecutorがCoTを使用してThinkerの回答にマッチする頻度を測定する。
我々は5つのベンチマークで10のExecutorモデルからなる委員会に対して4つのThinkerモデルを評価した。
本結果から,再現性と検証性は標準精度と相関しないことが明らかとなった。
驚いたことに、特殊推論モデルのCoTは、LlamaやGemmaのような汎用LLMのそれよりも、一貫して再利用可能な、あるいは検証可能なものではない。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Can Confidence Estimates Decide When Chain-of-Thought Is Necessary for LLMs? [32.02698064940949]
CoT(Chain-of- Thought)プロンプトは、大規模言語モデルの推論能力を高めるための一般的な手法として登場した。
本研究は,CoTゲーティングのためのトレーニング不要信頼度推定手法に関する最初の体系的研究である。
論文 参考訳(メタデータ) (2025-10-23T21:33:28Z) - Do LLMs Know They Are Being Tested? Evaluation Awareness and Incentive-Sensitive Failures in GPT-OSS-20B [1.948261185683419]
本研究では,「評価香り」がコンメンシュレート能力を得ることなく測定性能を膨らませるかどうかを考察する。
6つのペアのA/Bシナリオを実行し、タスク内容を保持し、フレーミングの異なる状態でデコードします。
再現可能なA/Bフレームワーク(バンキング、バリデータ、ラン毎のスコア、スクリプト)と実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-08T09:49:05Z) - Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Chain-of-Thought Reasoning Without Prompting [40.92854235219315]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練された言語モデルから引き出すことができる。
復号経路におけるCoTの存在は、モデルの復号解に対する高い信頼と相関する。
論文 参考訳(メタデータ) (2024-02-15T18:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。