論文の概要: RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2305.11499v2
- Date: Mon, 2 Oct 2023 03:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:53:35.446254
- Title: RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought
- Title(参考訳): RCOT:思考の連鎖逆転による推論の不整合の検出と抑制
- Authors: Tianci Xue, Ziqi Wang, Zhenhailong Wang, Chi Han, Pengfei Yu, Heng Ji
- Abstract要約: Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 56.558892336235914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language Models (LLMs) have achieved promising performance on
arithmetic reasoning tasks by incorporating step-by-step chain-of-thought (CoT)
prompting. However, LLMs face challenges in maintaining factual consistency
during reasoning, exhibiting tendencies to condition overlooking, question
misinterpretation, and condition hallucination over given problems. Existing
methods use coarse-grained feedback (e.g., whether the answer is correct) to
improve factual consistency. In this work, we propose RCoT (Reversing
Chain-of-Thought), a novel method to improve LLMs' reasoning abilities by
automatically detecting and rectifying factual inconsistency in LLMs, generated
solutions. To detect factual inconsistency, RCoT first asks LLMs to reconstruct
the problem based on generated solutions. Then fine-grained comparisons between
the original problem and the reconstructed problem expose the factual
inconsistency in the original solutions. To rectify the solution, RCoT
formulates detected factual inconsistency into fine-grained feedback to guide
LLMs in revising solutions. Experimental results demonstrate improvements of
RCoT over standard CoT, Self-Consistency and Self-Refine across seven
arithmetic datasets. Moreover, we find that manually written fine-grained
feedback can dramatically improve LLMs' reasoning abilities (e.g., ChatGPT
reaches 94.6% accuracy on GSM8K), encouraging the community to further explore
the fine-grained feedback generation methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ステップ・バイ・ステップ・チェーン・オブ・シークレット(CoT)プロンプトを導入し、算術推論タスクにおいて有望な性能を達成した。
しかし、LLMは、推論中の事実整合性の維持、条件見落としの傾向、疑わしい解釈、与えられた問題に対する条件幻覚といった課題に直面している。
既存の方法は、粗いフィードバック(例えば、答えが正しいかどうか)を使って、事実整合性を改善する。
本研究では, LLMにおける事実整合性を自動的に検出し, 修正することにより, LLMの推論能力を向上させる新しい手法である RCoT (Reversing Chain-of-Thought) を提案する。
事実整合性を検出するために、RCoT はまず LLM に対して、生成した解に基づいて問題を再構築するよう要求する。
そして、元の問題と再構成された問題の細かな比較は、元の解の事実的矛盾を露呈する。
解を正すために、RCoT式は、実際の矛盾を検出してきめ細かいフィードバックを与え、解の修正にLSMを導く。
実験により、7つの算術データセット間での標準CoT, 自己整合性, 自己整合性に対するRCoTの改善が示された。
さらに、手書きのきめ細かいフィードバックは、LCMの推論能力(例えば、ChatGPTはGSM8Kで94.6%の精度に達する)を劇的に向上させ、よりきめ細かいフィードバック生成方法の探求を促している。
関連論文リスト
- Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM
Responses [10.549804002910385]
本稿では,LLM生成テキストの修正手法であるRe-Exを提案する。
Re-Exは、複数のベンチマークでより少ない時間と少ないトークンで、より良いリビジョンパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-02-27T00:22:18Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for
Themselves [63.33254282051988]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward
Reasoning in Math Word Problems [18.69394742883921]
後方推論は数学用語の問題では 比較的未発見です
4つのSOTA LLMにおける前方推論と比較して,後方推論におけるモデルの精度は著しく低下した。
PAL-Tools はプログラム支援 LLM のアイデアを組み合わせて,外部の解法で解ける方程式の集合を生成し, 作業確認は, 前方方向の精度の高い自然検証器の可用性を活用する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。