論文の概要: A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for
Verifiers of Reasoning Chains
- arxiv url: http://arxiv.org/abs/2402.00559v3
- Date: Tue, 13 Feb 2024 09:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:16:45.380472
- Title: A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for
Verifiers of Reasoning Chains
- Title(参考訳): 思考の連鎖は最も弱いリンクと同じくらい強い:推論連鎖の検証者のためのベンチマーク
- Authors: Alon Jacovi, Yonatan Bitton, Bernd Bohnet, Jonathan Herzig, Or
Honovich, Michael Tseng, Michael Collins, Roee Aharoni, Mor Geva
- Abstract要約: ステップバイステップの回答を提供する言語モデル(例:Chain-of-Thought)は、複雑な推論タスクにおいて顕著なアプローチである。
このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。
ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
- 参考スコア(独自算出の注目度): 34.72503489170055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting language models to provide step-by-step answers (e.g.,
"Chain-of-Thought") is the prominent approach for complex reasoning tasks,
where more accurate reasoning chains typically improve downstream task
performance. Recent literature discusses automatic methods to verify reasoning
to evaluate and improve their correctness. However, no fine-grained step-level
datasets are available to enable thorough evaluation of such verification
methods, hindering progress in this direction. We introduce REVEAL: Reasoning
Verification Evaluation, a dataset to benchmark automatic verifiers of complex
Chain-of-Thought reasoning in open-domain question-answering settings. REVEAL
includes comprehensive labels for the relevance, attribution to evidence
passages, and logical correctness of each reasoning step in a language model's
answer, across a variety of datasets and state-of-the-art language models.
Evaluation on REVEAL shows that verifiers struggle at verifying reasoning
chains - in particular, verifying logical correctness and detecting
contradictions.
- Abstract(参考訳): ステップバイステップの回答を提供する言語モデル(例:Chain-of-Thought)は、複雑な推論タスクにおいて顕著なアプローチであり、より正確な推論チェーンがダウンストリームタスクのパフォーマンスを改善するのが一般的である。
最近の論文では、正当性を評価し改善するための推論を検証する自動手法について論じている。
しかし、このような検証方法を徹底的に評価するための詳細なステップレベルのデータセットは使用できず、この方向の進展を妨げている。
ReVEAL: Reasoning Verification Evaluationは、オープンドメイン質問応答設定における複雑な連鎖推論の自動検証をベンチマークするためのデータセットである。
revealには、関連する包括的ラベル、エビデンスパスへの帰属、言語モデルの回答における各推論ステップの論理的正当性、さまざまなデータセットと最先端言語モデルが含まれる。
検証者が推論チェインの検証に苦慮していること、特に論理的正当性の検証と矛盾の検出が示されている。
関連論文リスト
- STRIVE: Structured Reasoning for Self-Improvement in Claim Verification [21.00145637520767]
自己改善検証のための構造化推論を提案する。
本稿では,Crim Decomposition,Entity Analysis,Evidence Grounding Verificationを用いた構造化推論設計を提案する。
その後、すべてのトレーニング例に対して推論連鎖を生成するために適用され、その後の自己改善トレーニングのために正確で構造的に健全なもののみを選択する。
論文 参考訳(メタデータ) (2025-02-17T16:07:07Z) - Examining False Positives under Inference Scaling for Mathematical Reasoning [59.19191774050967]
本稿では,言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。
擬陽性が言語モデルの推論時間スケーリング行動にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2025-02-10T07:49:35Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Bisimulation Learning [55.859538562698496]
我々は、大きな、潜在的に無限の状態空間を持つ状態遷移系の有限バイシミュレートを計算する。
提案手法は,実際に行われている他の最先端ツールよりも高速な検証結果が得られる。
論文 参考訳(メタデータ) (2024-05-24T17:11:27Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - QA-NatVer: Question Answering for Natural Logic-based Fact Verification [11.002475880349452]
我々は自然論理演算子を予測するために質問応答を用いることを提案する。
FEVERのいくつかの設定では、我々のアプローチは最高のベースラインを4.3ドルの精度で上回っている。
人間の評価から,本手法は,従来の自然論理に基づくシステムよりも,誤動作の少ない自然論理演算子でより妥当であることが示唆された。
論文 参考訳(メタデータ) (2023-10-22T06:27:31Z) - ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness [67.49087159888298]
ReCEvalは2つの重要な特性(正確性と情報性)を通じて推論チェーンを評価するフレームワークである。
本稿では、ReCEvalが様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-21T02:19:06Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。