論文の概要: RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2305.11499v1
- Date: Fri, 19 May 2023 08:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 15:35:04.446028
- Title: RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought
- Title(参考訳): RCOT:思考の連鎖逆転による推論の不整合の検出と抑制
- Authors: Tianci Xue, Ziqi Wang, Zhenhailong Wang, Chi Han, Pengfei Yu, Heng Ji
- Abstract要約: 大規模言語モデル(LLM)は、ステップ・バイ・ステップ・チェーン・オブ・シークレット(CoT)プロンプトを組み込むことで、算術的推論タスクにおいて有望な性能を達成した。
既存の手法では、粗いフィードバックを使って事実整合性を改善する。
RCoT(Reversing Chain-of-Thought)は,現実の不整合を自動的に検出・修正し,LLMの推論能力を向上させる手法である。
- 参考スコア(独自算出の注目度): 46.016590978657995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language Models (LLMs) have achieved promising performance on
arithmetic reasoning tasks by incorporating step-by-step chain-of-thought (CoT)
prompting. However, LLMs face challenges in maintaining factual consistency
during reasoning, exhibiting tendencies to condition overlooking, question
misinterpretation, and condition hallucination over given problems. Existing
methods use coarse-grained feedback (e.g., whether the answer is correct) to
improve factual consistency. In this work, we propose RCoT (Reversing
Chain-of-Thought), a novel method to improve LLMs' reasoning abilities by
automatically detecting and rectifying factual inconsistency in LLMs' generated
solutions. To detect factual inconsistency, RCoT first asks LLMs to reconstruct
the problem based on generated solutions. Then fine-grained comparisons between
the original problem and the reconstructed problem expose the factual
inconsistency in the original solutions. To rectify the solution, RCoT
formulates detected factual inconsistency into fine-grained feedback to guide
LLMs in revising solutions. Experimental results demonstrate consistent
improvements of RCoT over standard CoT across seven arithmetic datasets.
Moreover, we find that manually written fine-grained feedback can dramatically
improve LLMs' reasoning abilities (e.g., ChatGPT reaches 94.6% accuracy on
GSM8K), encouraging the community to further explore the fine-grained feedback
generation methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ステップ・バイ・ステップ・チェーン・オブ・シークレット(CoT)プロンプトを導入し、算術推論タスクにおいて有望な性能を達成した。
しかし、LLMは、推論中の事実整合性の維持、条件見落としの傾向、疑わしい解釈、与えられた問題に対する条件幻覚といった課題に直面している。
既存の方法は、粗いフィードバック(例えば、答えが正しいかどうか)を使って、事実整合性を改善する。
本研究では,LLMの生成したソリューションにおける現実的矛盾を自動的に検出し,修正することにより,LLMの推論能力を向上させる新しい手法であるRCoT(Reversing Chain-of-Thought)を提案する。
事実整合性を検出するために、RCoT はまず LLM に対して、生成した解に基づいて問題を再構築するよう要求する。
そして、元の問題と再構成された問題の細かな比較は、元の解の事実的矛盾を露呈する。
解を正すために、RCoT式は、実際の矛盾を検出してきめ細かいフィードバックを与え、解の修正にLSMを導く。
実験により、7つの算術データセット間で標準CoTよりも一貫した改善が示された。
さらに、手書きのきめ細かいフィードバックは、LCMの推論能力(例えば、ChatGPTはGSM8Kで94.6%の精度に達する)を劇的に向上させ、よりきめ細かいフィードバック生成方法の探求を促している。
関連論文リスト
- Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Reasoners [86.03285157412839]
The Chain of Thought prompting strategy has enhance the performance of Large Language Models (LLMs) across various NLP task。
本稿では,LLMの推論能力を高めるために,DUP (Deeply Understanding the Problems) という簡便な手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners [38.30539869264287]
大きな言語モデル(LLM)は、様々な推論タスクで素晴らしいパフォーマンスを実現しています。
しかし、ChatGPTのような最先端のLCMでさえ、推論プロセス中に論理的な誤りを犯しやすい。
新たなプロンプト手法である RankPrompt を導入し,LLM が追加リソースを必要とせずに応答を自己ランクできる手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T02:34:18Z) - Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM Responses [9.956253757863145]
本稿では,大規模言語モデル(LLM)生成応答を後編集するRe-Exを提案する。
Re-Exは、事実的エラー説明ステップと呼ばれる新しい推論ステップを導入した。
説明ステップに加えて、Re-Exは、応答修正プロセスに必要なトークン数と推論時間を短縮する新しいプロンプト技術も取り入れている。
論文 参考訳(メタデータ) (2024-02-27T00:22:18Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward
Reasoning in Math Word Problems [18.69394742883921]
後方推論は数学用語の問題では 比較的未発見です
4つのSOTA LLMにおける前方推論と比較して,後方推論におけるモデルの精度は著しく低下した。
PAL-Tools はプログラム支援 LLM のアイデアを組み合わせて,外部の解法で解ける方程式の集合を生成し, 作業確認は, 前方方向の精度の高い自然検証器の可用性を活用する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。