論文の概要: Is Moral Self-correction An Innate Capability of Large Language Models? A Mechanistic Analysis to Self-correction
- arxiv url: http://arxiv.org/abs/2410.20513v1
- Date: Sun, 27 Oct 2024 16:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:34.008142
- Title: Is Moral Self-correction An Innate Capability of Large Language Models? A Mechanistic Analysis to Self-correction
- Title(参考訳): モーラル自己補正は大規模言語モデルの自然能力か? : 自己補正の力学解析
- Authors: Zimo Qi, Guangliang Liu, Kristen Marie Johnson, Lu Chen,
- Abstract要約: 我々は道徳的自己補正の基本的な2つの疑問に答えることを目指している。
本研究では,異なる自己補正成分が,隠れた状態に埋め込まれた道徳にどう介入するかを検討する。
本稿では,効果的な自己補正を必要とする自己識別フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.077348519490594
- License:
- Abstract: Though intensive attentions to the self-correction capability of Large Language Models (LLMs), the underlying mechanism of this capability is still under-explored. In this paper, we aim to answer two fundamental questions for moral self-correction: (1) how different components in self-correction, such as Chain-of-Thought (CoT) reasoning, external feedback, and instructional prompts, interact to enable moral self-correction; and (2) is the self-correction one of LLMs' innate capabilities? To answer the first question, we examine how different self-correction components interact to intervene the embedded morality within hidden states, therefore contributing to different performance. For the second question, we (i) evaluate the robustness of moral self-correction by introducing natural language interventions of weak evidence into prompts; (ii) propose a validation framework, self-distinguish, that requires effective self-correction to enable LLMs to distinguish between desirable and undesirable outputs. Our experimental results indicate that there is no universally optimal self-correction method for the tasks considered, although external feedback and CoT can contribute to additional performance gains. However, our mechanistic analysis reveals negative interactions among instructional prompts, CoT, and external feedback, suggesting a conflict between internal knowledge and external feedback. The self-distinguish experiments demonstrate that while LLMs can self-correct their responses, they are unable to reliably distinguish between desired and undesired outputs. With our empirical evidence, we can conclude that moral self-correction is not an innate capability of LLMs acquired during pretraining.
- Abstract(参考訳): LLM(Large Language Models)の自己補正能力に注意が向けられているが、その基盤となるメカニズムはまだ解明されていない。
本稿では,道徳的自己補正に関する2つの基本的疑問に答えることを目的とする。(1) 自己補正の要素,例えば,CoT(Chain-of-Thought)推論,外部フィードバック,指導的プロンプトが,道徳的自己補正を実現するためにどのように相互作用するか,(2) LLMの自然能力の自己補正であるか。
最初の質問に答えるために、異なる自己補正成分がどのように相互作用し、隠れた状態に埋め込まれた道徳を介入し、異なるパフォーマンスに寄与するかを検討する。
2つ目の質問は
一 弱い証拠の自然言語による介入を契機に道徳的自己補正の堅牢性を評価すること。
2) LLMが望ましくない出力と望ましくない出力を区別できるように, 効果的な自己補正を必要とする検証フレームワーク, 自己識別を提案する。
実験結果から,外部フィードバックとCoTはさらなる性能向上に寄与するが,タスクに対する最適自己補正手法は存在しないことが示唆された。
しかし,我々の力学解析により,指導的インプット,CoT,外部フィードバック間の負の相互作用が明らかとなり,内部知識と外部フィードバックの相違が示唆された。
自己識別実験は、LSMは自己修正できるが、望まれない出力と望ましくない出力を確実に区別できないことを示した。
実証的な証拠により、道徳的自己補正は、事前訓練中に獲得したLLMの自然能力ではないと結論付けることができる。
関連論文リスト
- Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis [35.734425912914176]
大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。
最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。
自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。
論文 参考訳(メタデータ) (2024-07-21T22:50:11Z) - Large Language Models have Intrinsic Self-Correction Ability [16.831123666582755]
大規模言語モデルは、性能劣化を引き起こす幻覚に悩まされる。
LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。
内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文 参考訳(メタデータ) (2024-06-21T22:29:40Z) - On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [34.51532840859617]
本稿では,大規模言語モデルを収束状態に導くための適切な命令を提示する。
本稿では,活性化潜在概念がモデルの不確実性と自己補正性能の収束を促進することを示す数学的定式化を提案する。
論文 参考訳(メタデータ) (2024-06-04T14:55:43Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - Confidence Matters: Revisiting Intrinsic Self-Correction Capabilities of Large Language Models [23.42725642076256]
大規模言語モデル(LLM)は、自己訂正能力への関心が高まっている。
本稿では,LLMの内在的自己補正に関する包括的研究について述べる。
We developed a "If-or-Else" prompting framework, designed to guide LLMs in evaluation of their "confidence"。
論文 参考訳(メタデータ) (2024-02-19T21:38:02Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。