Fugu-MT 論文翻訳(概要): Discourse Heuristics For Paradoxically Moral Self-Correction

論文の概要: Discourse Heuristics For Paradoxically Moral Self-Correction

arxiv url: http://arxiv.org/abs/2507.00985v1
Date: Tue, 01 Jul 2025 17:36:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:59.760243
Title: Discourse Heuristics For Paradoxically Moral Self-Correction
Title（参考訳）: パラドックス的道徳的自己補正のための談話ヒューリスティックス
Authors: Guangliang Liu, Zimo Qi, Xitong Zhang, Kristen Marie Johnson,
Abstract要約: 道徳的自己補正は、大規模言語モデルの出力と人間の道徳的価値を整合させるための有望なアプローチとして現れてきた。道徳的自己補正はショートカットを反映した談話構成に依存していることを示す。本稿では,キュレートされたデータセットの一般化を利用して,道徳的自己補正を改善する手法を提案する。
参考スコア（独自算出の注目度）: 6.360181137608509
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Moral self-correction has emerged as a promising approach for aligning the output of Large Language Models (LLMs) with human moral values. However, moral self-correction techniques are subject to two primary paradoxes. First, despite empirical and theoretical evidence to support the effectiveness of self-correction, this LLM capability only operates at a superficial level. Second, while LLMs possess the capability of self-diagnosing immoral aspects of their output, they struggle to identify the cause of this moral inconsistency during their self-correction process. To better understand and address these paradoxes, we analyze the discourse constructions in fine-tuning corpora designed to enhance moral self-correction, uncovering the existence of the heuristics underlying effective constructions. We demonstrate that moral self-correction relies on discourse constructions that reflect heuristic shortcuts, and that the presence of these heuristic shortcuts during self-correction leads to inconsistency when attempting to enhance both self-correction and self-diagnosis capabilities jointly. Based on our findings, we propose a solution to improve moral self-correction by leveraging the heuristics of curated datasets. We also highlight the generalization challenges of this capability, particularly in terms of learning from situated context and model scales.
Abstract（参考訳）: 道徳的自己補正は,大規模言語モデル(LLM)の出力を人間の道徳的価値と整合させる,有望なアプローチとして現れてきた。しかし、道徳的な自己補正技術は2つの主要なパラドックスの対象となっている。第一に、自己補正の有効性を支持する実証的および理論的証拠にもかかわらず、このLLM能力は表面レベルでのみ機能する。第二に、LLMはアウトプットの不道徳な側面を自己診断する能力を持っているが、自己補正過程におけるこの道徳的不整合の原因を特定するのに苦労している。これらのパラドックスをよりよく理解し、対処するために、道徳的自己補正を強化するために設計された微調整コーパスの談話構成を分析し、その基礎となるヒューリスティックスの存在を明らかにする。道徳的自己補正は、ヒューリスティック・ショートカットを反映した談話構造に依存しており、自己補正の間にこれらのヒューリスティック・ショートカットが存在することは、自己補正と自己診断の能力の両立を図ろうとするときに矛盾をもたらすことを実証する。そこで本研究では,キュレートされたデータセットのヒューリスティックスを活用することにより,道徳的自己補正を改善する手法を提案する。また、この能力の一般化の課題、特に位置するコンテキストやモデルスケールから学ぶことの課題も強調します。

関連論文リスト

ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-02-20T13:50:02Z)
Self-correction is Not An Innate Capability in Large Language Models: A Case Study of Moral Self-correction [8.61034573238112]
我々は、道徳的自己補正は大規模言語モデル(LLM)の本質的な能力ではないと論じる。我々は,CoT(Chain-of-Thought)推論や外部フィードバックといった自己補正の重要な構成要素が,道徳的自己補正を実現するためにどのように相互作用するかを,機械論的に分析する。
論文参考訳（メタデータ） (2024-10-27T16:52:21Z)
Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis [35.734425912914176]
大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。
論文参考訳（メタデータ） (2024-07-21T22:50:11Z)
Large Language Models have Intrinsic Self-Correction Ability [18.79203446847577]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な能力に対して大きな注目を集めている。 LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文参考訳（メタデータ） (2024-06-21T22:29:40Z)
On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [36.27550578296276]
大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
論文参考訳（メタデータ） (2024-06-04T14:55:43Z)
A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。 LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文参考訳（メタデータ） (2024-05-28T22:33:02Z)
Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文参考訳（メタデータ） (2024-03-08T19:18:53Z)
Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-02-14T15:52:42Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。生成したコンテンツの正確性と適切性に関する懸念が続いている。現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文参考訳（メタデータ） (2023-10-03T04:56:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。