論文の概要: Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think
- arxiv url: http://arxiv.org/abs/2504.20708v1
- Date: Tue, 29 Apr 2025 12:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.892211
- Title: Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think
- Title(参考訳): 謎の謎を解き明かす「最後の答え」の裏側
- Authors: Hasan Abed Al Kader Hammoud, Hani Itani, Bernard Ghanem,
- Abstract要約: 我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか?
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
- 参考スコア(独自算出の注目度): 51.0691253204425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) leverage step-by-step reasoning to solve complex problems. Standard evaluation practice involves generating a complete reasoning trace and assessing the correctness of the final answer presented at its conclusion. In this paper, we challenge the reliance on the final answer by posing the following two questions: Does the final answer reliably represent the model's optimal conclusion? Can alternative reasoning paths yield different results? To answer these questions, we analyze intermediate reasoning steps, termed subthoughts, and propose a method based on our findings. Our approach involves segmenting a reasoning trace into sequential subthoughts based on linguistic cues. We start by prompting the model to generate continuations from the end-point of each intermediate subthought. We extract a potential answer from every completed continuation originating from different subthoughts. We find that aggregating these answers by selecting the most frequent one (the mode) often yields significantly higher accuracy compared to relying solely on the answer derived from the original complete trace. Analyzing the consistency among the answers derived from different subthoughts reveals characteristics that correlate with the model's confidence and correctness, suggesting potential for identifying less reliable answers. Our experiments across various LLMs and challenging mathematical reasoning datasets (AIME2024 and AIME2025) show consistent accuracy improvements, with gains reaching up to 13\% and 10\% respectively. Implementation is available at: https://github.com/hammoudhasan/SubthoughtReasoner.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な問題を解決するためにステップバイステップ推論を利用する。
標準評価の実践は、完全な推論トレースを生成し、その結論で提示された最終回答の正しさを評価することである。
本稿では、次の2つの質問に答えることで、最終回答の信頼性に挑戦する: 最終回答は、モデルの最適結論を確実に表すか?
別の推論経路は異なる結果をもたらすか?
これらの問いに答えるために,中間的推論のステップを解析し,その方法を提案する。
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
まず、各中間部分集合の終点から連続を生成するようモデルに促すことから始める。
我々は、異なる部分集合から導かれるすべての完備連続から潜在的な答えを抽出する。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
異なるサブ思想から導かれる回答間の一貫性を分析すると、モデルの信頼性と正しさに相関する特性が示され、信頼性の低い回答を識別する可能性が示唆される。
各種LLMと挑戦的数学的推論データセット(AIME2024とAIME2025)を用いた実験では,それぞれ13倍,10倍の精度で精度が向上した。
実装は、https://github.com/hammoudhasan/Sub ThoughtReasoner.comで公開されている。
関連論文リスト
- Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification [23.190823296729732]
本研究は,仮説モデルが解答正解性に関する情報を隠蔽状態の探索によって符号化するかどうかを考察する。
得られたプローブは、中間回答を高い精度で検証し、高度に校正されたスコアを生成する。
論文 参考訳(メタデータ) (2025-04-07T18:42:01Z) - Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。
心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。
我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文 参考訳(メタデータ) (2024-06-23T15:50:22Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness [67.49087159888298]
ReCEvalは2つの重要な特性(正確性と情報性)を通じて推論チェーンを評価するフレームワークである。
本稿では、ReCEvalが様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-21T02:19:06Z) - Measuring and Narrowing the Compositionality Gap in Language Models [116.5228850227024]
モデルがすべてのサブプロブレムに正しく答えられる頻度を計測するが、全体の解は生成しない。
我々は,思考の連鎖をさらに改善する新たな手法である自己認識法を提案する。
論文 参考訳(メタデータ) (2022-10-07T06:50:23Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。