Fugu-MT 論文翻訳(概要): Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis

論文の概要: Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis

arxiv url: http://arxiv.org/abs/2407.15286v2
Date: Mon, 12 Aug 2024 18:42:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-14 21:54:47.272125
Title: Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis
Title（参考訳）: 内因性自己補正によるモラル向上 : 内因性メカニズムと表面仮説の解析
Authors: Guangliang Liu, Haitao Mao, Jiliang Tang, Kristen Marie Johnson,
Abstract要約: 大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。
参考スコア（独自算出の注目度）: 35.734425912914176
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are capable of producing content that perpetuates stereotypes, discrimination, and toxicity. The recently proposed moral self-correction is a computationally efficient method for reducing harmful content in the responses of LLMs. However, the process of how injecting self-correction instructions can modify the behavior of LLMs remains under-explored. In this paper, we explore the effectiveness of moral self-correction by answering three research questions: (1) In what scenarios does moral self-correction work? (2) What are the internal mechanisms of LLMs, e.g., hidden states, that are influenced by moral self-correction instructions? (3) Is intrinsic moral self-correction actually superficial? We argue that self-correction can help LLMs find a shortcut to more morally correct output, rather than truly reducing the immorality stored in hidden states. Through empirical investigation with tasks of language generation and multi-choice question answering, we conclude: (i) LLMs exhibit good performance across both tasks, and self-correction instructions are particularly beneficial when the correct answer is already top-ranked; (ii) The morality levels in intermediate hidden states are strong indicators as to whether one instruction would be more effective than another; (iii) Based on our analysis of intermediate hidden states and task case studies of self-correction behaviors, we are first to propose the hypothesis that intrinsic moral self-correction is in fact superficial.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。しかし、自己補正命令の注入方法がLLMの動作を変える過程は未解明のままである。本稿では,(1)道徳的自己補正作業のシナリオとは何か,という3つの研究課題に答えることで,道徳的自己補正の有効性を検討する。 2)道徳的自己補正の指示に影響されるLLMの内部メカニズム、例えば隠蔽状態はどのようなものか? (3)本質的な道徳的自己補正は実際に表面的であるか? 自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。言語生成と多選択質問応答の課題に関する実証調査を通じて、結論を下す。 (i)LLMは両課題にまたがって優れた性能を示しており、正解が既に上位にある場合には、自己訂正指示が特に有益である。二中間隠蔽状態の道徳レベルは、一方の指示が他方よりも効果的かどうかの指標として強い。 3) 自己訂正行動の中間的隠蔽状態の解析とタスクケーススタディに基づいて,本質的道徳的自己補正が実際に表面的であるという仮説を最初に提案する。

関連論文リスト

Are Language Models Sensitive to Morally Irrelevant Distractors? [47.92026843851412]
低あいまいなシナリオであっても、道徳的気晴らし者が大きな言語モデルの道徳的判断を30%以上シフトできることを示す。この研究は、人間の道徳的判断の安定性を仮定する理論に挑戦する。
論文参考訳（メタデータ） (2026-02-10T05:18:05Z)
The Straight and Narrow: Do LLMs Possess an Internal Moral Path? [25.256151938852728]
現在のアライメント技術は、しばしば表面的なガードレールとして機能し、大きな言語モデルの本質的な道徳的表現は、ほとんど触れられていないままである。我々は、このギャップをMFT(Moral Foundations Theory)を利用して、LLMの微粒な道徳的景観を地図化し、操作することで埋める。本稿では,プローブ検出とベクトル注入を相乗化する動的推論時間介入であるAdaptive Moral Fusion (AMF)を提案する。
論文参考訳（メタデータ） (2026-01-15T11:42:00Z)
Can LLMs Correct Themselves? A Benchmark of Self-Correction in LLMs [57.10533368622962]
大規模言語モデル(LLM)の自己補正は、推論性能を高める重要な要素として現れる。本研究では,自己補正戦略の有効性を評価するためのベンチマークであるCorrectBenchを紹介する。その結果,1) 自己補正手法は, 複雑な推論タスクにおいて, 精度を向上させることが可能であり, 2) 異なる自己補正戦略の混合により, 効率は低下するものの, さらなる改善がもたらされることが明らかとなった。
論文参考訳（メタデータ） (2025-10-17T02:40:19Z)
On the Convergence of Moral Self-Correction in Large Language Models [26.724972162483855]
大きな言語モデル(LLM)は、そのように指示されたときの応答を改善することができる。 LLMは、内在的な自己補正と呼ばれるプロセスである応答品質を改善するために、内部知識に頼らなければならない。我々は,多ラウンド相互作用による性能収束という,本質的な自己補正のキーとなる特徴を明らかにする。
論文参考訳（メタデータ） (2025-10-08T17:46:27Z)
Discourse Heuristics For Paradoxically Moral Self-Correction [6.360181137608509]
道徳的自己補正は、大規模言語モデルの出力と人間の道徳的価値を整合させるための有望なアプローチとして現れてきた。道徳的自己補正はショートカットを反映した談話構成に依存していることを示す。本稿では,キュレートされたデータセットの一般化を利用して,道徳的自己補正を改善する手法を提案する。
論文参考訳（メタデータ） (2025-07-01T17:36:41Z)
Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs [0.0]
道徳的能力は道徳的原則に従って行動する能力である。大規模言語モデル(LLM)は、道徳的能力を求める状況においてますます展開されているため、この能力を実証的に評価することへの関心が高まっている。 i) 道徳的特徴を明確に強調した事前パッケージ化された道徳的シナリオへの過度な信頼、(ii) 道徳的推論よりも検証予測に焦点をあてること、(iii) 追加情報が必要な時に認識できないモデルの不適切なテスト。
論文参考訳（メタデータ） (2025-06-16T03:59:38Z)
Are Language Models Consequentialist or Deontological Moral Reasoners? [69.85385952436044]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文参考訳（メタデータ） (2025-05-27T17:51:18Z)
When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文参考訳（メタデータ） (2025-05-25T16:19:24Z)
Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文参考訳（メタデータ） (2024-12-19T15:39:31Z)
Smaller Large Language Models Can Do Moral Self-Correction [7.899707459486236]
自己補正は、大規模言語モデル(LLM)の最も驚くべき新興能力の1つです。道徳的自己補正(Moral self-correction)は、非倫理的世代を勾配更新を必要とせずに修正するポストホックアプローチである。以前の研究では、LLMは自己退行を可能としており、22B未満のパラメータを持つ小さなモデルでは道徳的な自己訂正ができないことが報告されている。
論文参考訳（メタデータ） (2024-10-30T22:58:57Z)
Is Moral Self-correction An Innate Capability of Large Language Models? A Mechanistic Analysis to Self-correction [5.271054803267951]
我々は道徳的自己補正の基本的な2つの疑問に答えることを目指している。本研究では,異なる自己補正成分が,隠れた状態に埋め込まれた道徳にどう介入するかを検討する。本稿では,効果的な自己補正を必要とする自己識別フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-27T16:52:21Z)
Automatic Curriculum Expert Iteration for Reliable LLM Reasoning [60.60318625779015]
幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
論文参考訳（メタデータ） (2024-10-10T05:43:07Z)
Large Language Models have Intrinsic Self-Correction Ability [16.831123666582755]
大規模言語モデルは、性能劣化を引き起こす幻覚に悩まされる。 LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文参考訳（メタデータ） (2024-06-21T22:29:40Z)
On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [36.27550578296276]
大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
論文参考訳（メタデータ） (2024-06-04T14:55:43Z)
A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。 LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文参考訳（メタデータ） (2024-05-28T22:33:02Z)
Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。生成したコンテンツの正確性と適切性に関する懸念が続いている。現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文参考訳（メタデータ） (2023-10-03T04:56:12Z)
Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-29T15:57:32Z)
The Capacity for Moral Self-Correction in Large Language Models [17.865286693602656]
我々は、人間のフィードバックから強化学習で訓練された言語モデルが「道徳的自己正当性」を持つという仮説を検証した。我々はこの仮説を支持する強力な証拠を3つの異なる実験で発見する。我々の結果は、倫理的原則に従うために言語モデルを訓練する能力に関する慎重な楽観主義の原因であると考えています。
論文参考訳（メタデータ） (2023-02-15T04:25:40Z)
ClarifyDelphi: Reinforced Clarification Questions with Defeasibility Rewards for Social and Moral Situations [81.70195684646681]
本稿では,ClarifyDelphiという対話型システムについて紹介する。我々は、潜在的な答えが道徳的判断の多様化に繋がる質問が最も有益であると仮定する。私たちの研究は究極的には、道徳的認知の柔軟性を研究してきた認知科学の研究にインスピレーションを受けています。
論文参考訳（メタデータ） (2022-12-20T16:33:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。