論文の概要: Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis
- arxiv url: http://arxiv.org/abs/2407.15286v3
- Date: Mon, 7 Oct 2024 23:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:56:37.643822
- Title: Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis
- Title(参考訳): 内因性自己補正によるモラル向上 : 内因性メカニズムと表面仮説の解析
- Authors: Guangliang Liu, Haitao Mao, Jiliang Tang, Kristen Marie Johnson,
- Abstract要約: 大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。
最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。
自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。
- 参考スコア(独自算出の注目度): 35.734425912914176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are capable of producing content that perpetuates stereotypes, discrimination, and toxicity. The recently proposed moral self-correction is a computationally efficient method for reducing harmful content in the responses of LLMs. However, the process of how injecting self-correction instructions can modify the behavior of LLMs remains under-explored. In this paper, we explore the effectiveness of moral self-correction by answering three research questions: (1) In what scenarios does moral self-correction work? (2) What are the internal mechanisms of LLMs, e.g., hidden states, that are influenced by moral self-correction instructions? (3) Is intrinsic moral self-correction actually superficial in terms of reduced immorality in hidden states? We argue that self-correction can help LLMs find a shortcut to more morally correct output, rather than truly reducing the immorality stored in hidden states. Through empirical investigation with tasks of language generation and multi-choice question answering, we conclude:(i) LLMs exhibit good performance across both tasks, and self-correction instructions are particularly beneficial when the correct answer is already top-ranked; (ii) The morality levels in intermediate hidden states are strong indicators as to whether one instruction would be more effective than another; (iii) Based on our analysis of intermediate hidden states and task case studies of self-correction behaviors, we are first to propose the hypothesis that intrinsic moral self-correction is in fact superficial.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。
最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。
しかし、自己補正命令の注入方法がLLMの動作を変える過程は未解明のままである。
本稿では,(1)道徳的自己補正作業のシナリオとは何か,という3つの研究課題に答えることで,道徳的自己補正の有効性を検討する。
2)道徳的自己補正の指示に影響されるLLMの内部メカニズム、例えば隠蔽状態はどのようなものか?
(3)本質的な道徳的自己補正は、隠された状態における不道徳を減らし、実際に表面的であるか?
自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。
言語生成と多選択質問応答の課題に関する実証調査を通じて、結論を下す。
(i)LLMは両課題にまたがって優れた性能を示しており、正解が既に上位にある場合には、自己訂正指示が特に有益である。
二 中間隠蔽状態の道徳レベルは、一方の指示が他方よりも効果的かどうかの指標として強い。
3) 自己訂正行動の中間的隠蔽状態の解析とタスクケーススタディに基づいて,本質的道徳的自己補正が実際に表面的であるという仮説を最初に提案する。
関連論文リスト
- Smaller Large Language Models Can Do Moral Self-Correction [7.899707459486236]
自己補正は、大規模言語モデル(LLM)の最も驚くべき新興能力の1つです。
道徳的自己補正(Moral self-correction)は、非倫理的世代を勾配更新を必要とせずに修正するポストホックアプローチである。
以前の研究では、LLMは自己退行を可能としており、22B未満のパラメータを持つ小さなモデルでは道徳的な自己訂正ができないことが報告されている。
論文 参考訳(メタデータ) (2024-10-30T22:58:57Z) - Is Moral Self-correction An Innate Capability of Large Language Models? A Mechanistic Analysis to Self-correction [7.077348519490594]
我々は道徳的自己補正の基本的な2つの疑問に答えることを目指している。
本研究では,異なる自己補正成分が,隠れた状態に埋め込まれた道徳にどう介入するかを検討する。
本稿では,効果的な自己補正を必要とする自己識別フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-27T16:52:21Z) - Automatic Curriculum Expert Iteration for Reliable LLM Reasoning [60.60318625779015]
幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。
幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。
本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
論文 参考訳(メタデータ) (2024-10-10T05:43:07Z) - Large Language Models have Intrinsic Self-Correction Ability [16.831123666582755]
大規模言語モデルは、性能劣化を引き起こす幻覚に悩まされる。
LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。
内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文 参考訳(メタデータ) (2024-06-21T22:29:40Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - The Capacity for Moral Self-Correction in Large Language Models [17.865286693602656]
我々は、人間のフィードバックから強化学習で訓練された言語モデルが「道徳的自己正当性」を持つという仮説を検証した。
我々はこの仮説を支持する強力な証拠を3つの異なる実験で発見する。
我々の結果は、倫理的原則に従うために言語モデルを訓練する能力に関する慎重な楽観主義の原因であると考えています。
論文 参考訳(メタデータ) (2023-02-15T04:25:40Z) - ClarifyDelphi: Reinforced Clarification Questions with Defeasibility
Rewards for Social and Moral Situations [81.70195684646681]
本稿では,ClarifyDelphiという対話型システムについて紹介する。
我々は、潜在的な答えが道徳的判断の多様化に繋がる質問が最も有益であると仮定する。
私たちの研究は究極的には、道徳的認知の柔軟性を研究してきた認知科学の研究にインスピレーションを受けています。
論文 参考訳(メタデータ) (2022-12-20T16:33:09Z) - Reinforcement Learning Under Moral Uncertainty [13.761051314923634]
機械学習の野心的な目標は、倫理的に振る舞うエージェントを作ることだ。
倫理的エージェントは、特定の道徳理論の下で正しい行動に報いることによって訓練することができるが、道徳性の本質について広く意見の相違がある。
本稿では、競合するデシダラタの異なる点を実現するための2つのトレーニング手法を提案し、モラルの不確実性の下で行動するための単純な環境におけるエージェントを訓練する。
論文 参考訳(メタデータ) (2020-06-08T16:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。