論文の概要: Can We Verify Step by Step for Incorrect Answer Detection?
- arxiv url: http://arxiv.org/abs/2402.10528v1
- Date: Fri, 16 Feb 2024 09:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:50:28.050449
- Title: Can We Verify Step by Step for Incorrect Answer Detection?
- Title(参考訳): 誤答検出のためのステップバイステップ検証は可能か?
- Authors: Xin Xu, Shizhe Diao, Can Yang, Yang Wang
- Abstract要約: 本稿では,様々な推論タスクにおける推論連鎖と性能の関係を調査するためのベンチマークR2PEを紹介する。
本ベンチマークは,LLMの最終出力の誤りを推論ステップに基づいて測定することを目的としている。
本稿では,回答チェックベースラインを大きなマージンで上回るPDS(Process Discernibility score)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.108381471640936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting has marked a significant advancement in
enhancing the reasoning capabilities of large language models (LLMs). Previous
studies have developed various extensions of CoT, which focus primarily on
enhancing end-task performance. In addition, there has been research on
assessing the quality of reasoning chains in CoT. This raises an intriguing
question: Is it possible to predict the accuracy of LLM outputs by scrutinizing
the reasoning chains they generate? To answer this research question, we
introduce a benchmark, R2PE, designed specifically to explore the relationship
between reasoning chains and performance in various reasoning tasks spanning
five different domains. This benchmark aims to measure the falsehood of the
final output of LLMs based on the reasoning steps. To make full use of
information in multiple reasoning chains, we propose the process discernibility
score (PDS) framework that beats the answer-checking baseline by a large
margin. Concretely, this resulted in an average of 5.1% increase in the F1
score across all 45 subsets within R2PE. We further demonstrate our PDS's
efficacy in advancing open-domain QA accuracy. Data and code are available at
https://github.com/XinXU-USTC/R2PE.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)の推論能力の向上に大きく貢献している。
従来の研究は、主にエンドタスク性能の向上に焦点を当てたCoTの様々な拡張を開発してきた。
さらに、CoTにおける推論鎖の品質を評価する研究も行われている。
これは興味深い疑問を提起する: LLM出力の精度は、それらが生成する推論連鎖を精査することによって予測できるのか?
そこで本研究では,5つのドメインにまたがる様々な推論タスクにおいて,推論連鎖と性能の関係を調査するためのベンチマークR2PEを提案する。
本ベンチマークは,LLMの最終出力の誤りを推論ステップに基づいて測定することを目的とする。
複数の推論チェーンにおける情報を完全に活用するために,回答チェックベースラインを大きなマージンで打ち負かすプロセス識別可能性スコア(PDS)フレームワークを提案する。
具体的には、R2PE内の45個のサブセットでF1スコアが平均5.1%増加した。
さらに,オープンドメインQAの精度向上にPSDの有効性を示す。
データとコードはhttps://github.com/XinXU-USTC/R2PEで入手できる。
関連論文リスト
- Making Reasoning Matter: Measuring and Improving Faithfulness of
Chain-of-Thought Reasoning [42.16867530444306]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの推論を求めると、よりよいパフォーマンスを示すことが示されている。
モデルの最終回答がどの程度、説明された推論ステップに忠実であるかは定かではない。
FRODOは、小さなLMを調整して正しい推論ステップを生成し、これらのステップに対して堅牢な推論を行うためのフレームワークである。
論文 参考訳(メタデータ) (2024-02-21T17:23:59Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential
Reasoning Ability [29.1826948551409]
AQA-Benchは、大規模言語モデルの逐次推論能力を評価するための新しいベンチマークである。
AQA-Benchは,2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築されている。
我々の調査では興味深い発見がいくつか示されている。
論文 参考訳(メタデータ) (2024-02-14T18:59:33Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot
Question Answering [68.52980461474752]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness [67.49087159888298]
ReCEvalは2つの重要な特性(正確性と情報性)を通じて推論チェーンを評価するフレームワークである。
本稿では、ReCEvalが様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-21T02:19:06Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。