論文の概要: On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept
- arxiv url: http://arxiv.org/abs/2406.02378v2
- Date: Thu, 07 Nov 2024 20:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:34.793348
- Title: On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept
- Title(参考訳): LLMの固有の自己補正能力について:不確かさと潜在概念
- Authors: Guangliang Liu, Haitao Mao, Bochuan Cao, Zhiyu Xue, Xitong Zhang, Rongrong Wang, Jiliang Tang, Kristen Johnson,
- Abstract要約: 大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。
内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。
内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
- 参考スコア(独自算出の注目度): 36.27550578296276
- License:
- Abstract: Large Language Models (LLMs) are able to improve their responses when instructed to do so, a capability known as self-correction. When instructions provide only the task's goal without specific details about potential issues in the response, LLMs must rely on their internal knowledge to improve response quality, a process referred to as intrinsic self-correction. The empirical success of intrinsic self-correction is evident in various applications, but how and why it is effective remains unknown. In this paper, we unveil that intrinsic self-correction can be progressively improved, allowing it to approach a converged state. Our findings are verified in: (1) the scenario of multi-round question answering, by comprehensively demonstrating that intrinsic self-correction can progressively introduce performance gains through iterative interactions, ultimately converging to stable performance; and (2) the context of intrinsic self-correction for enhanced morality, in which we provide empirical evidence that iteratively applying instructions reduces model uncertainty towards convergence, which then leads to convergence of both the calibration error and self-correction performance, ultimately resulting in a stable state of intrinsic self-correction. Furthermore, we introduce a mathematical formulation and a simulation task indicating that the latent concepts activated by self-correction instructions drive the reduction of model uncertainty. Based on our experimental results and analysis of the convergence of intrinsic self-correction, we reveal its underlying mechanism: consistent injected instructions reduce model uncertainty which yields converged, improved performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。
命令がタスクの目標のみに応答の潜在的な問題についての具体的な詳細を含まない場合、LSMは内部知識に頼って応答品質を改善する必要がある。
内在的自己補正の実証的成功は、様々な応用において明らかであるが、それが有効である理由や理由は不明である。
本稿では,内在的自己補正が徐々に改善され,収束状態に近づくことができることを示す。
本研究は,(1)本質的な自己補正が,反復的相互作用を通じて段階的に性能向上をもたらすことを包括的に証明し,また(2)本質的な自己補正の文脈から,反復的に指示を適用することによって収束に対するモデルの不確実性が減少し,結果として本質的な自己補正が安定することを示す。
さらに,自己補正命令によって活性化される潜在概念がモデルの不確実性を減少させることを示す数学的定式化とシミュレーションタスクを導入する。
実験結果と内在的自己補正の収束解析に基づいて,その根底にあるメカニズムを明らかにする。 一貫性のあるインジェクション命令は,収束するモデルの不確実性を低減し,性能を向上する。
関連論文リスト
- ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs [34.203575667558454]
大規模言語モデル(LLM)は自己生成応答を補正することができるが、自己補正後の精度の低下も観察されている。
自己訂正能力は、自信(回答を正す自信)と批判(間違った回答を正しいものにする)に分解します。
我々の戦略は両方の能力においてバニラSFTより優れており、自己補正後の精度ははるかに高い。
論文 参考訳(メタデータ) (2024-12-27T08:09:11Z) - Is Moral Self-correction An Innate Capability of Large Language Models? A Mechanistic Analysis to Self-correction [5.271054803267951]
我々は道徳的自己補正の基本的な2つの疑問に答えることを目指している。
本研究では,異なる自己補正成分が,隠れた状態に埋め込まれた道徳にどう介入するかを検討する。
本稿では,効果的な自己補正を必要とする自己識別フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-27T16:52:21Z) - Confidence Matters: Revisiting Intrinsic Self-Correction Capabilities of Large Language Models [23.42725642076256]
大規模言語モデル(LLM)は、自己訂正能力への関心が高まっている。
本稿では,LLMの内在的自己補正に関する包括的研究について述べる。
We developed a "If-or-Else" prompting framework, designed to guide LLMs in evaluation of their "confidence"。
論文 参考訳(メタデータ) (2024-02-19T21:38:02Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - N-Critics: Self-Refinement of Large Language Models with Ensemble of
Critics [5.516095889257118]
本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。
この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。
論文 参考訳(メタデータ) (2023-10-28T11:22:22Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。