論文の概要: Large Language Models Can Self-Correct with Minimal Effort
- arxiv url: http://arxiv.org/abs/2405.14092v1
- Date: Thu, 23 May 2024 01:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:24:51.744396
- Title: Large Language Models Can Self-Correct with Minimal Effort
- Title(参考訳): 大規模言語モデルは最小限の努力で自己修正できる
- Authors: Zhenyu Wu, Qingkai Zeng, Zhihan Zhang, Zhaoxuan Tan, Chao Shen, Meng Jiang,
- Abstract要約: 単純で効果的な検証手法は,大規模言語モデルの本質的な能力を解き放つことができる。
本稿では, 誤応答を段階的に識別し, 訂正する反復的検証列補正フレームワークを提案する。
- 参考スコア(独自算出の注目度): 39.67266805233599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intrinsic self-correct was a method that instructed large language models (LLMs) to verify and correct their responses without external feedback. Unfortunately, the study concluded that the LLMs could not self-correct reasoning yet. We find that a simple yet effective verification method can unleash inherent capabilities of the LLMs. That is to mask a key condition in the question, add the current response to construct a verification question, and predict the condition to verify the response. The condition can be an entity in an open-domain question or a numeric value in a math question, which requires minimal effort (via prompting) to identify. We propose an iterative verify-then-correct framework to progressively identify and correct (probably) false responses, named ProCo. We conduct experiments on three reasoning tasks. On average, ProCo, with GPT-3.5-Turbo as the backend LLM, yields $+6.8$ exact match on four open-domain question answering datasets, $+14.1$ accuracy on three arithmetic reasoning datasets, and $+9.6$ accuracy on a commonsense reasoning dataset, compared to Self-Correct.
- Abstract(参考訳): 内在的自己正当性(英: Intrinsic self-correct)とは、大きな言語モデル(LLM)に対して、外部からのフィードバックなしにその応答を検証し、修正するように指示する手法である。
残念なことに、この研究はLSMが自己正しい推論をまだできないと結論づけた。
単純で効果的な検証手法は,LLMの本質的な能力を解き放つことができる。
すなわち、質問のキー条件を隠蔽し、現在の応答を追加して検証問題を構築し、応答を検証する条件を予測する。
この条件は、オープンドメインの質問の実体や、数学の質問の数値となり得る。
本稿では,ProCo という名前の偽応答を段階的に同定し,訂正する反復的検証列補正フレームワークを提案する。
私たちは3つの推論タスクで実験を行います。
平均して、GPT-3.5-Turbo をバックエンド LLM として持つ ProCo は、4つのオープンドメインの質問応答データセットで$6.8$、算術的推論データセットで$+14.1$、常識的推論データセットで$9.6$と、Self-Correct と比較すると$9.6$の精度を持つ。
関連論文リスト
- Can Language Models Explain Their Own Classification Behavior? [1.8177391253202122]
大規模言語モデル(LLM)は、無数のタスクでうまく機能するが、このパフォーマンスの背後にあるプロセスを説明することは困難である。
本稿では,LLMが内部プロセスの忠実な高レベルな説明を行えるかどうかを考察する。
私たちはデータセットであるArticulateRulesをリリースし、コンテキスト内または微調整によってトレーニングされたLLMの自己説明をテストするために使用します。
論文 参考訳(メタデータ) (2024-05-13T02:31:08Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
複数の候補回答の信頼性を徹底的に比較し、LLM生成の不正確な回答における過剰信頼を軽減する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。
ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。
実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-02-20T14:23:23Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Quantifying Uncertainty in Answers from any Language Model and Enhancing
their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。
我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文 参考訳(メタデータ) (2023-08-30T17:53:25Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。