論文の概要: Discourse Heuristics For Paradoxically Moral Self-Correction
- arxiv url: http://arxiv.org/abs/2507.00985v1
- Date: Tue, 01 Jul 2025 17:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.760243
- Title: Discourse Heuristics For Paradoxically Moral Self-Correction
- Title(参考訳): パラドックス的道徳的自己補正のための談話ヒューリスティックス
- Authors: Guangliang Liu, Zimo Qi, Xitong Zhang, Kristen Marie Johnson,
- Abstract要約: 道徳的自己補正は、大規模言語モデルの出力と人間の道徳的価値を整合させるための有望なアプローチとして現れてきた。
道徳的自己補正はショートカットを反映した談話構成に依存していることを示す。
本稿では,キュレートされたデータセットの一般化を利用して,道徳的自己補正を改善する手法を提案する。
- 参考スコア(独自算出の注目度): 6.360181137608509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moral self-correction has emerged as a promising approach for aligning the output of Large Language Models (LLMs) with human moral values. However, moral self-correction techniques are subject to two primary paradoxes. First, despite empirical and theoretical evidence to support the effectiveness of self-correction, this LLM capability only operates at a superficial level. Second, while LLMs possess the capability of self-diagnosing immoral aspects of their output, they struggle to identify the cause of this moral inconsistency during their self-correction process. To better understand and address these paradoxes, we analyze the discourse constructions in fine-tuning corpora designed to enhance moral self-correction, uncovering the existence of the heuristics underlying effective constructions. We demonstrate that moral self-correction relies on discourse constructions that reflect heuristic shortcuts, and that the presence of these heuristic shortcuts during self-correction leads to inconsistency when attempting to enhance both self-correction and self-diagnosis capabilities jointly. Based on our findings, we propose a solution to improve moral self-correction by leveraging the heuristics of curated datasets. We also highlight the generalization challenges of this capability, particularly in terms of learning from situated context and model scales.
- Abstract(参考訳): 道徳的自己補正は,大規模言語モデル(LLM)の出力を人間の道徳的価値と整合させる,有望なアプローチとして現れてきた。
しかし、道徳的な自己補正技術は2つの主要なパラドックスの対象となっている。
第一に、自己補正の有効性を支持する実証的および理論的証拠にもかかわらず、このLLM能力は表面レベルでのみ機能する。
第二に、LLMはアウトプットの不道徳な側面を自己診断する能力を持っているが、自己補正過程におけるこの道徳的不整合の原因を特定するのに苦労している。
これらのパラドックスをよりよく理解し、対処するために、道徳的自己補正を強化するために設計された微調整コーパスの談話構成を分析し、その基礎となるヒューリスティックスの存在を明らかにする。
道徳的自己補正は、ヒューリスティック・ショートカットを反映した談話構造に依存しており、自己補正の間にこれらのヒューリスティック・ショートカットが存在することは、自己補正と自己診断の能力の両立を図ろうとするときに矛盾をもたらすことを実証する。
そこで本研究では,キュレートされたデータセットのヒューリスティックスを活用することにより,道徳的自己補正を改善する手法を提案する。
また、この能力の一般化の課題、特に位置するコンテキストやモデルスケールから学ぶことの課題も強調します。
関連論文リスト
- Self-correction is Not An Innate Capability in Large Language Models: A Case Study of Moral Self-correction [8.61034573238112]
我々は、道徳的自己補正は大規模言語モデル(LLM)の本質的な能力ではないと論じる。
我々は,CoT(Chain-of-Thought)推論や外部フィードバックといった自己補正の重要な構成要素が,道徳的自己補正を実現するためにどのように相互作用するかを,機械論的に分析する。
論文 参考訳(メタデータ) (2024-10-27T16:52:21Z) - On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [36.27550578296276]
大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。
内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。
内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
論文 参考訳(メタデータ) (2024-06-04T14:55:43Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。