論文の概要: ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness
- arxiv url: http://arxiv.org/abs/2304.10703v2
- Date: Thu, 30 Nov 2023 23:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 18:56:39.993535
- Title: ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness
- Title(参考訳): ReCEval: 正確性とインフォーマル性による推論チェーンの評価
- Authors: Archiki Prasad, Swarnadeep Saha, Xiang Zhou, Mohit Bansal
- Abstract要約: ReCEvalは2つの重要な特性(正確性と情報性)を通じて推論チェーンを評価するフレームワークである。
本稿では、ReCEvalが様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 67.49087159888298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-step reasoning ability is fundamental to many natural language tasks,
yet it is unclear what constitutes a good reasoning chain and how to evaluate
them. Most existing methods focus solely on whether the reasoning chain leads
to the correct conclusion, but this answer-oriented view may confound reasoning
quality with other spurious shortcuts to predict the answer. To bridge this
gap, we evaluate reasoning chains by viewing them as informal proofs that
derive the final answer. Specifically, we propose ReCEval (Reasoning Chain
Evaluation), a framework that evaluates reasoning chains via two key
properties: (1) correctness, i.e., each step makes a valid inference based on
information contained within the step, preceding steps, and input context, and
(2) informativeness, i.e., each step provides new information that is helpful
towards deriving the generated answer. We evaluate these properties by
developing metrics using natural language inference models and V-Information.
On multiple datasets, we show that ReCEval effectively identifies various error
types and yields notable improvements compared to prior methods. We analyze the
impact of step boundaries, and previous steps on evaluating correctness and
demonstrate that our informativeness metric captures the expected flow of
information in high-quality reasoning chains. Finally, we show that scoring
reasoning chains based on ReCEval improves downstream task performance. Our
code is publicly available at: https://github.com/archiki/ReCEval
- Abstract(参考訳): 多段階推論能力は多くの自然言語処理に基本的だが、何が適切な推論連鎖を構成するのか、どのように評価するかは定かではない。
既存のほとんどの手法は、推論連鎖が正しい結論に至るかどうかにのみ焦点を絞っているが、この回答指向の見解は、推論品質を他の急激なショートカットと混同して答えを予測する。
このギャップを埋めるために、最終的な答えを導く非公式な証明として、推論連鎖を評価する。
具体的には、(1)正確性、すなわち、各ステップは、ステップ、先行ステップ、入力コンテキストに含まれる情報に基づいて妥当な推論を行い、(2)有益性、すなわち、各ステップは、生成された回答の導出に役立つ新しい情報を提供する、という2つの重要な特性を通して推論チェーンを評価するフレームワークであるreceval(reasoning chain evaluation)を提案する。
自然言語推論モデルとV-情報を用いて,これらの特性を評価する。
複数のデータセットにおいて、ReCEvalは様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。
我々は,ステップ境界の影響と,その正確性を評価するための前回のステップを分析し,高品質な推論チェーンにおいて,情報の流れが期待できることを示す。
最後に,recevalに基づくスコアリング推論チェインが下流タスクのパフォーマンスを向上させることを示す。
私たちのコードは、https://github.com/archiki/ReCEvalで公開されています。
関連論文リスト
- A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for
Verifiers of Reasoning Chains [34.72503489170055]
ステップバイステップの回答を提供する言語モデル(例:Chain-of-Thought)は、複雑な推論タスクにおいて顕著なアプローチである。
このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。
ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文 参考訳(メタデータ) (2024-02-01T12:46:45Z) - QA-NatVer: Question Answering for Natural Logic-based Fact Verification [11.002475880349452]
我々は自然論理演算子を予測するために質問応答を用いることを提案する。
FEVERのいくつかの設定では、我々のアプローチは最高のベースラインを4.3ドルの精度で上回っている。
人間の評価から,本手法は,従来の自然論理に基づくシステムよりも,誤動作の少ない自然論理演算子でより妥当であることが示唆された。
論文 参考訳(メタデータ) (2023-10-22T06:27:31Z) - Boosting Language Models Reasoning with Chain-of-Knowledge Prompting [14.443107383265922]
CoK(Chain-of-Knowledge)は、構造三重の形で明確な知識証拠を引き出すことを目的としている。
さらに, 推論チェーンの信頼性を推定するF2-Verification法を導入する。
広汎な実験により,本手法はコモンセンス,事実,記号,算術的推論タスクの性能をさらに向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-10T12:42:36Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Robust Counterfactual Explanations for Random Forests [76.84947521482631]
本研究では,アンサンブルモデルのロバスト性とベース学習者のロバスト性との関係について検討する。
既存の手法が驚くほど低いロバスト性を与えることを示す: 単純な反事実の妥当性は、ほとんどのデータセットで50%以下である。
本手法は, 反実的説明から初期観測までの距離をわずかに増加させるだけで, 高いロバスト性を実現する。
論文 参考訳(メタデータ) (2022-05-27T17:28:54Z) - REX: Reasoning-aware and Grounded Explanation [30.392986232906107]
我々は,画像中の推論プロセスとグラウンド化キーワードをトラバースすることで,意思決定を説明する,新しいタイプのマルチモーダルな説明を開発する。
第2に、意思決定を説明するために、視覚的およびテキスト的モダリティに重要なコンポーネントを密に結合する必要があることを特定する。
第3に、単語と興味のある領域のペアワイズ対応を明示的にモデル化する、新しい説明生成手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T17:28:42Z) - Search Methods for Sufficient, Socially-Aligned Feature Importance
Explanations with In-Distribution Counterfactuals [72.00815192668193]
特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。
FIに基づく説明の未探索次元についていくつかの考察を行い、この説明形式に対する概念的および実証的な改善を提供する。
論文 参考訳(メタデータ) (2021-06-01T20:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。