論文の概要: Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs
- arxiv url: http://arxiv.org/abs/2412.19513v1
- Date: Fri, 27 Dec 2024 08:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:04.129578
- Title: Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs
- Title(参考訳): 信頼性対批判: LLMの自己補正能力の分解
- Authors: Zhe Yang, Yichang Zhang, Yudong Wang, Ziyao Xu, Junyang Lin, Zhifang Sui,
- Abstract要約: 大規模言語モデル(LLM)は自己生成応答を補正することができるが、自己補正後の精度の低下も観察されている。
自己訂正能力は、自信(回答を正す自信)と批判(間違った回答を正しいものにする)に分解します。
我々の戦略は両方の能力においてバニラSFTより優れており、自己補正後の精度ははるかに高い。
- 参考スコア(独自算出の注目度): 34.203575667558454
- License:
- Abstract: Large Language Models (LLMs) can correct their self-generated responses, but a decline in accuracy after self-correction is also witnessed. To have a deeper understanding of self-correction, we endeavor to decompose, evaluate, and analyze the self-correction behaviors of LLMs. By enumerating and analyzing answer correctness before and after self-correction, we decompose the self-correction capability into confidence (being confident to correct answers) and critique (turning wrong answers to correct) capabilities, and propose two metrics from a probabilistic perspective to measure these 2 capabilities, along with another metric for overall self-correction capability evaluation. Based on our decomposition and evaluation metrics, we conduct extensive experiments and draw some empirical conclusions. For example, we find different models can exhibit distinct behaviors: some models are confident while others are more critical. We also find the trade-off between the two capabilities (i.e. improving one can lead to a decline in the other) when manipulating model self-correction behavior by prompts or in-context learning. Further, we find a simple yet efficient strategy to improve self-correction capability by transforming Supervision Fine-Tuning (SFT) data format, and our strategy outperforms vanilla SFT in both capabilities and achieves much higher accuracy after self-correction. Our code will be publicly available on GitHub.
- Abstract(参考訳): 大規模言語モデル(LLM)は自己生成応答を補正することができるが、自己補正後の精度の低下も観察されている。
自己補正の理解を深めるために, LLMの自己補正行動の分解, 評価, 解析を行う。
自己補正前後の回答の正しさを列挙し分析することにより、自己補正能力を自信(正解に自信がある)と批判能力(正解に間違った答えを正す)に分解し、確率論的観点から2つの指標を提案し、これら2つの能力を測定するとともに、全体的な自己補正能力の評価のための別の指標を提案する。
分析と評価の指標に基づいて、広範な実験を行い、いくつかの実験的な結論を導き出す。
例えば、異なるモデルが異なる振る舞いを示すことがある。
また、プロンプトや文脈内学習によるモデル自己補正行動を操作する場合、この2つの能力のトレードオフ(すなわち、改善は他方の低下につながる可能性がある)も見出す。
さらに,スーパービジョン・ファインチューニング(SFT)データフォーマットを変換することで,自己補正能力を向上させるための簡易かつ効率的な戦略を見出した。
私たちのコードはGitHubで公開されます。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Is Moral Self-correction An Innate Capability of Large Language Models? A Mechanistic Analysis to Self-correction [5.271054803267951]
我々は道徳的自己補正の基本的な2つの疑問に答えることを目指している。
本研究では,異なる自己補正成分が,隠れた状態に埋め込まれた道徳にどう介入するかを検討する。
本稿では,効果的な自己補正を必要とする自己識別フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-27T16:52:21Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Large Language Models have Intrinsic Self-Correction Ability [18.79203446847577]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な能力に対して大きな注目を集めている。
LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。
内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文 参考訳(メタデータ) (2024-06-21T22:29:40Z) - On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [36.27550578296276]
大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。
内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。
内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
論文 参考訳(メタデータ) (2024-06-04T14:55:43Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Confidence Matters: Revisiting Intrinsic Self-Correction Capabilities of Large Language Models [23.42725642076256]
大規模言語モデル(LLM)は、自己訂正能力への関心が高まっている。
本稿では,LLMの内在的自己補正に関する包括的研究について述べる。
We developed a "If-or-Else" prompting framework, designed to guide LLMs in evaluation of their "confidence"。
論文 参考訳(メタデータ) (2024-02-19T21:38:02Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。