論文の概要: On the Convergence of Moral Self-Correction in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.07290v2
- Date: Thu, 09 Oct 2025 02:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.598411
- Title: On the Convergence of Moral Self-Correction in Large Language Models
- Title(参考訳): 大規模言語モデルにおける道徳的自己補正の収束性について
- Authors: Guangliang Liu, Haitao Mao, Bochuan Cao, Zhiyu Xue, Xitong Zhang, Rongrong Wang, Kristen Marie Johnson,
- Abstract要約: 大きな言語モデル(LLM)は、そのように指示されたときの応答を改善することができる。
LLMは、内在的な自己補正と呼ばれるプロセスである応答品質を改善するために、内部知識に頼らなければならない。
我々は,多ラウンド相互作用による性能収束という,本質的な自己補正のキーとなる特徴を明らかにする。
- 参考スコア(独自算出の注目度): 26.724972162483855
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are able to improve their responses when instructed to do so, a capability known as self-correction. When instructions provide only a general and abstract goal without specific details about potential issues in the response, LLMs must rely on their internal knowledge to improve response quality, a process referred to as intrinsic self-correction. The empirical success of intrinsic self-correction is evident in various applications, but how and why it is effective remains unknown. Focusing on moral self-correction in LLMs, we reveal a key characteristic of intrinsic self-correction: performance convergence through multi-round interactions; and provide a mechanistic analysis of this convergence behavior. Based on our experimental results and analysis, we uncover the underlying mechanism of convergence: consistently injected self-correction instructions activate moral concepts that reduce model uncertainty, leading to converged performance as the activated moral concepts stabilize over successive rounds. This paper demonstrates the strong potential of moral self-correction by showing that it exhibits a desirable property of converged performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。
命令が応答の潜在的な問題について具体的な詳細を示さずに汎用的かつ抽象的な目標のみを提供する場合、LLMは応答品質を改善するために内部知識を頼らなければならない(本質的な自己補正と呼ばれるプロセス)。
内在的自己補正の実証的成功は、様々な応用において明らかであるが、それが有効である理由や理由は不明である。
LLMにおける道徳的自己補正に着目して、本質的な自己補正のキーとなる特徴を明らかにする。
連続的に自己補正命令を注入することでモラル概念が活性化され、モデルの不確実性を低減し、アクティベートされたモラル概念が連続するラウンドに対して安定化されるにつれて、コンバージェンスのパフォーマンスが向上する。
本稿では, 自己補正の強い可能性を示すとともに, 収束性能の望ましい特性を示す。
関連論文リスト
- Discourse Heuristics For Paradoxically Moral Self-Correction [6.360181137608509]
道徳的自己補正は、大規模言語モデルの出力と人間の道徳的価値を整合させるための有望なアプローチとして現れてきた。
道徳的自己補正はショートカットを反映した談話構成に依存していることを示す。
本稿では,キュレートされたデータセットの一般化を利用して,道徳的自己補正を改善する手法を提案する。
論文 参考訳(メタデータ) (2025-07-01T17:36:41Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Self-correction is Not An Innate Capability in Large Language Models: A Case Study of Moral Self-correction [8.61034573238112]
我々は、道徳的自己補正は大規模言語モデル(LLM)の本質的な能力ではないと論じる。
我々は,CoT(Chain-of-Thought)推論や外部フィードバックといった自己補正の重要な構成要素が,道徳的自己補正を実現するためにどのように相互作用するかを,機械論的に分析する。
論文 参考訳(メタデータ) (2024-10-27T16:52:21Z) - On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [36.27550578296276]
大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。
内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。
内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
論文 参考訳(メタデータ) (2024-06-04T14:55:43Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。