論文の概要: ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness
- arxiv url: http://arxiv.org/abs/2304.10703v1
- Date: Fri, 21 Apr 2023 02:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 16:18:16.623071
- Title: ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness
- Title(参考訳): ReCEval: 正確性とインフォーマル性による推論チェーンの評価
- Authors: Archiki Prasad, Swarnadeep Saha, Xiang Zhou, Mohit Bansal
- Abstract要約: ReCEvalは2つの重要な特性(正確性と情報性)を通じて推論チェーンを評価するフレームワークである。
自然言語推論モデルと情報理論測度を用いてReCEvalを実装した。
情報量測定により,高品質な推論チェーンにおける情報の流れを把握できることが示される。
- 参考スコア(独自算出の注目度): 78.33198188221681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-step reasoning ability is fundamental to many natural language tasks,
yet it is unclear what constitutes a good reasoning chain and how to evaluate
them. Most existing methods focus solely on whether the reasoning chain leads
to the correct conclusion, but this answer-oriented view may confound the
quality of reasoning with other spurious shortcuts to predict the answer. To
bridge this gap, we evaluate reasoning chains by viewing them as informal
proofs that derive the final answer. Specifically, we propose ReCEval
(Reasoning Chain Evaluation), a framework that evaluates reasoning chains
through two key properties: (1) correctness, i.e., each step makes a valid
inference based on the information contained within the step, preceding steps,
and input context, and (2) informativeness, i.e., each step provides new
information that is helpful towards deriving the generated answer. We implement
ReCEval using natural language inference models and information-theoretic
measures. On multiple datasets, ReCEval is highly effective in identifying
different types of errors, resulting in notable improvements compared to prior
methods. We demonstrate that our informativeness metric captures the expected
flow of information in high-quality reasoning chains and we also analyze the
impact of previous steps on evaluating correctness and informativeness.
Finally, we show that scoring reasoning chains based on ReCEval can improve
downstream performance of reasoning tasks. Our code is publicly available at:
https://github.com/archiki/ReCEval
- Abstract(参考訳): 多段階推論能力は多くの自然言語処理に基本的だが、何が適切な推論連鎖を構成するのか、どのように評価するかは定かではない。
既存の手法のほとんどは、推論チェーンが正しい結論につながるかどうかだけに焦点を当てているが、この回答指向の視点は、答えを予測するために他の散発的な近道と推論の質を結びつけるかもしれない。
このギャップを埋めるために、最終的な答えを導く非公式な証明として、推論連鎖を評価する。
具体的には、(1)正確性、すなわち、各ステップは、ステップ、先行ステップ、入力コンテキストに含まれる情報に基づいて妥当な推論を行い、(2)情報性、すなわち、各ステップは、生成された回答の導出に役立つ新しい情報を提供する、という2つの重要な特性を通して推論チェーンを評価するフレームワークであるreceval(reasoning chain evaluation)を提案する。
自然言語推論モデルと情報理論測度を用いてReCEvalを実装した。
複数のデータセットにおいて、recevalは異なるタイプのエラーを特定するのに非常に効果的であり、以前の方法と比較して顕著な改善をもたらす。
我々は,高品質な推論チェーンにおける情報の流れを計測し,その正しさと報知性を評価するための先行ステップの影響を分析する。
最後に,recevalに基づくスコアリング推論チェインが,推論タスクのダウンストリームパフォーマンスを向上させることを示す。
私たちのコードは、https://github.com/archiki/ReCEvalで公開されています。
関連論文リスト
- Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Chain-of-Probe: Examing the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。
心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。
我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文 参考訳(メタデータ) (2024-06-23T15:50:22Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - General Purpose Verification for Chain of Thought Prompting [16.381123651223763]
大規模言語モデル(LLM)の推論能力を改善する方法について検討する。
我々は、モデルが推論中に従うべき3つの一般的な原則を提案する。
これらの制約をLLMが生成する推論ステップに適用し、最終生成の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-30T21:15:17Z) - Information Re-Organization Improves Reasoning in Large Language Models [22.2946033364035]
大規模言語モデル(LLM)の推論能力を高める情報再構成(InfoRE)手法を提案する。
本手法では,文書や段落などの文脈的内容から論理的関係を抽出し,ノイズを最小限に抑えるために冗長な内容を抽出する。
Llama2-70B, GPT-3.5, GPT-4 を用いて, 各種マルチホップ推論タスクにおいて, 提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-22T08:47:27Z) - A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains [33.46649770312231]
ステップバイステップの回答を提供するために言語モデルを実証することは、複雑な推論タスクにおいて顕著なアプローチである。
このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。
ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文 参考訳(メタデータ) (2024-02-01T12:46:45Z) - QA-NatVer: Question Answering for Natural Logic-based Fact Verification [11.002475880349452]
我々は自然論理演算子を予測するために質問応答を用いることを提案する。
FEVERのいくつかの設定では、我々のアプローチは最高のベースラインを4.3ドルの精度で上回っている。
人間の評価から,本手法は,従来の自然論理に基づくシステムよりも,誤動作の少ない自然論理演算子でより妥当であることが示唆された。
論文 参考訳(メタデータ) (2023-10-22T06:27:31Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Search Methods for Sufficient, Socially-Aligned Feature Importance
Explanations with In-Distribution Counterfactuals [72.00815192668193]
特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。
FIに基づく説明の未探索次元についていくつかの考察を行い、この説明形式に対する概念的および実証的な改善を提供する。
論文 参考訳(メタデータ) (2021-06-01T20:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。