Fugu-MT 論文翻訳(概要): ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness

論文の概要: ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness

arxiv url: http://arxiv.org/abs/2304.10703v2
Date: Thu, 30 Nov 2023 23:33:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 18:56:39.993535
Title: ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness
Title（参考訳）: ReCEval: 正確性とインフォーマル性による推論チェーンの評価
Authors: Archiki Prasad, Swarnadeep Saha, Xiang Zhou, Mohit Bansal
Abstract要約: ReCEvalは2つの重要な特性(正確性と情報性)を通じて推論チェーンを評価するフレームワークである。本稿では、ReCEvalが様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。
参考スコア（独自算出の注目度）: 67.49087159888298
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-step reasoning ability is fundamental to many natural language tasks, yet it is unclear what constitutes a good reasoning chain and how to evaluate them. Most existing methods focus solely on whether the reasoning chain leads to the correct conclusion, but this answer-oriented view may confound reasoning quality with other spurious shortcuts to predict the answer. To bridge this gap, we evaluate reasoning chains by viewing them as informal proofs that derive the final answer. Specifically, we propose ReCEval (Reasoning Chain Evaluation), a framework that evaluates reasoning chains via two key properties: (1) correctness, i.e., each step makes a valid inference based on information contained within the step, preceding steps, and input context, and (2) informativeness, i.e., each step provides new information that is helpful towards deriving the generated answer. We evaluate these properties by developing metrics using natural language inference models and V-Information. On multiple datasets, we show that ReCEval effectively identifies various error types and yields notable improvements compared to prior methods. We analyze the impact of step boundaries, and previous steps on evaluating correctness and demonstrate that our informativeness metric captures the expected flow of information in high-quality reasoning chains. Finally, we show that scoring reasoning chains based on ReCEval improves downstream task performance. Our code is publicly available at: https://github.com/archiki/ReCEval
Abstract（参考訳）: 多段階推論能力は多くの自然言語処理に基本的だが、何が適切な推論連鎖を構成するのか、どのように評価するかは定かではない。既存のほとんどの手法は、推論連鎖が正しい結論に至るかどうかにのみ焦点を絞っているが、この回答指向の見解は、推論品質を他の急激なショートカットと混同して答えを予測する。このギャップを埋めるために、最終的な答えを導く非公式な証明として、推論連鎖を評価する。具体的には、(1)正確性、すなわち、各ステップは、ステップ、先行ステップ、入力コンテキストに含まれる情報に基づいて妥当な推論を行い、(2)有益性、すなわち、各ステップは、生成された回答の導出に役立つ新しい情報を提供する、という2つの重要な特性を通して推論チェーンを評価するフレームワークであるreceval(reasoning chain evaluation)を提案する。自然言語推論モデルとV-情報を用いて,これらの特性を評価する。複数のデータセットにおいて、ReCEvalは様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。我々は,ステップ境界の影響と,その正確性を評価するための前回のステップを分析し,高品質な推論チェーンにおいて,情報の流れが期待できることを示す。最後に,recevalに基づくスコアリング推論チェインが下流タスクのパフォーマンスを向上させることを示す。私たちのコードは、https://github.com/archiki/ReCEvalで公開されています。

関連論文リスト

Answer Convergence as a Signal for Early Stopping in Reasoning [7.60104447055814]
大型言語モデル(LLM)における思考の連鎖(CoT)の促進提案手法は,(1)応答整合性による早期停止,(2)終末信号発生確率の向上,(3)内部アクティベーションに基づいていつ停止するかを学習する教師付き手法である。
論文参考訳（メタデータ） (2025-06-03T07:20:54Z)
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか? 我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文参考訳（メタデータ） (2025-04-29T12:39:07Z)
STRIVE: Structured Reasoning for Self-Improvement in Claim Verification [21.00145637520767]
自己改善検証のための構造化推論を提案する。本稿では,Crim Decomposition,Entity Analysis,Evidence Grounding Verificationを用いた構造化推論設計を提案する。その後、すべてのトレーニング例に対して推論連鎖を生成するために適用され、その後の自己改善トレーニングのために正確で構造的に健全なもののみを選択する。
論文参考訳（メタデータ） (2025-02-17T16:07:07Z)
Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文参考訳（メタデータ） (2024-10-21T17:00:06Z)
Chain-of-Probe: Examing the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文参考訳（メタデータ） (2024-06-23T15:50:22Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
General Purpose Verification for Chain of Thought Prompting [16.381123651223763]
大規模言語モデル(LLM)の推論能力を改善する方法について検討する。我々は、モデルが推論中に従うべき3つの一般的な原則を提案する。これらの制約をLLMが生成する推論ステップに適用し、最終生成の精度を向上させる。
論文参考訳（メタデータ） (2024-04-30T21:15:17Z)
Information Re-Organization Improves Reasoning in Large Language Models [22.2946033364035]
大規模言語モデル(LLM)の推論能力を高める情報再構成(InfoRE)手法を提案する。本手法では,文書や段落などの文脈的内容から論理的関係を抽出し,ノイズを最小限に抑えるために冗長な内容を抽出する。 Llama2-70B, GPT-3.5, GPT-4 を用いて, 各種マルチホップ推論タスクにおいて, 提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-04-22T08:47:27Z)
A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains [33.46649770312231]
ステップバイステップの回答を提供するために言語モデルを実証することは、複雑な推論タスクにおいて顕著なアプローチである。このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。 ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文参考訳（メタデータ） (2024-02-01T12:46:45Z)
QA-NatVer: Question Answering for Natural Logic-based Fact Verification [11.002475880349452]
我々は自然論理演算子を予測するために質問応答を用いることを提案する。 FEVERのいくつかの設定では、我々のアプローチは最高のベースラインを4.3ドルの精度で上回っている。人間の評価から,本手法は,従来の自然論理に基づくシステムよりも,誤動作の少ない自然論理演算子でより妥当であることが示唆された。
論文参考訳（メタデータ） (2023-10-22T06:27:31Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
Search Methods for Sufficient, Socially-Aligned Feature Importance Explanations with In-Distribution Counterfactuals [72.00815192668193]
特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。 FIに基づく説明の未探索次元についていくつかの考察を行い、この説明形式に対する概念的および実証的な改善を提供する。
論文参考訳（メタデータ） (2021-06-01T20:36:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。