Fugu-MT 論文翻訳(概要): Is Moral Self-correction An Innate Capability of Large Language Models? A Mechanistic Analysis to Self-correction

論文の概要: Is Moral Self-correction An Innate Capability of Large Language Models? A Mechanistic Analysis to Self-correction

arxiv url: http://arxiv.org/abs/2410.20513v2
Date: Wed, 13 Nov 2024 13:40:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.017574
Title: Is Moral Self-correction An Innate Capability of Large Language Models? A Mechanistic Analysis to Self-correction
Title（参考訳）: モーラル自己補正は大規模言語モデルの自然能力か? : 自己補正の力学解析
Authors: Zimo Qi, Guangliang Liu, Kristen Marie Johnson, Lu Cheng,
Abstract要約: 我々は道徳的自己補正の基本的な2つの疑問に答えることを目指している。本研究では,異なる自己補正成分が,隠れた状態に埋め込まれた道徳にどう介入するかを検討する。本稿では,効果的な自己補正を必要とする自己識別フレームワークを提案する。
参考スコア（独自算出の注目度）: 5.271054803267951
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Though intensive attentions to the self-correction capability of Large Language Models (LLMs), the underlying mechanism of this capability is still under-explored. In this paper, we aim to answer two fundamental questions for moral self-correction: (1) how different components in self-correction, such as Chain-of-Thought (CoT) reasoning, external feedback, and instructional prompts, interact to enable moral self-correction; and (2) is the self-correction one of LLMs' innate capabilities? To answer the first question, we examine how different self-correction components interact to intervene the embedded morality within hidden states, therefore contributing to different performance. For the second question, we (i) evaluate the robustness of moral self-correction by introducing natural language interventions of weak evidence into prompts; (ii) propose a validation framework, self-distinguish, that requires effective self-correction to enable LLMs to distinguish between desirable and undesirable outputs. Our experimental results indicate that there is no universally optimal self-correction method for the tasks considered, although external feedback and CoT can contribute to additional performance gains. However, our mechanistic analysis reveals negative interactions among instructional prompts, CoT, and external feedback, suggesting a conflict between internal knowledge and external feedback. The self-distinguish experiments demonstrate that while LLMs can self-correct their responses, they are unable to reliably distinguish between desired and undesired outputs. With our empirical evidence, we can conclude that moral self-correction is not an innate capability of LLMs acquired during pretraining.
Abstract（参考訳）: LLM(Large Language Models)の自己補正能力に注意が向けられているが、その基盤となるメカニズムはまだ解明されていない。本稿では,道徳的自己補正に関する2つの基本的疑問に答えることを目的とする。(1) 自己補正の要素,例えば,CoT(Chain-of-Thought)推論,外部フィードバック,指導的プロンプトが,道徳的自己補正を実現するためにどのように相互作用するか,(2) LLMの自然能力の自己補正であるか。最初の質問に答えるために、異なる自己補正成分がどのように相互作用し、隠れた状態に埋め込まれた道徳を介入し、異なるパフォーマンスに寄与するかを検討する。 2つ目の質問は一弱い証拠の自然言語による介入を契機に道徳的自己補正の堅牢性を評価すること。 2) LLMが望ましくない出力と望ましくない出力を区別できるように, 効果的な自己補正を必要とする検証フレームワーク, 自己識別を提案する。実験結果から,外部フィードバックとCoTはさらなる性能向上に寄与するが,タスクに対する最適自己補正手法は存在しないことが示唆された。しかし,我々の力学解析により,指導的インプット,CoT,外部フィードバック間の負の相互作用が明らかとなり,内部知識と外部フィードバックの相違が示唆された。自己識別実験は、LSMは自己修正できるが、望まれない出力と望ましくない出力を確実に区別できないことを示した。実証的な証拠により、道徳的自己補正は、事前訓練中に獲得したLLMの自然能力ではないと結論付けることができる。

関連論文リスト

Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning [52.99434388759101]
ツール統合推論による継続的改善を実現する自己進化型視覚言語エージェントを提案する。 Agent0-VLは、ツールの使用法を推論だけでなく、自己評価や自己修復にも取り入れている。実験の結果,Agent0-VLはベースモデルよりも12.5%向上していることがわかった。
論文参考訳（メタデータ） (2025-11-25T04:15:14Z)
On the Convergence of Moral Self-Correction in Large Language Models [26.724972162483855]
大きな言語モデル(LLM)は、そのように指示されたときの応答を改善することができる。 LLMは、内在的な自己補正と呼ばれるプロセスである応答品質を改善するために、内部知識に頼らなければならない。我々は,多ラウンド相互作用による性能収束という,本質的な自己補正のキーとなる特徴を明らかにする。
論文参考訳（メタデータ） (2025-10-08T17:46:27Z)
The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文参考訳（メタデータ） (2025-09-03T21:27:10Z)
Discourse Heuristics For Paradoxically Moral Self-Correction [6.360181137608509]
道徳的自己補正は、大規模言語モデルの出力と人間の道徳的価値を整合させるための有望なアプローチとして現れてきた。道徳的自己補正はショートカットを反映した談話構成に依存していることを示す。本稿では,キュレートされたデータセットの一般化を利用して,道徳的自己補正を改善する手法を提案する。
論文参考訳（メタデータ） (2025-07-01T17:36:41Z)
Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文参考訳（メタデータ） (2025-05-27T16:24:02Z)
Line of Duty: Evaluating LLM Self-Knowledge via Consistency in Feasibility Boundaries [0.0]
本研究は,新たな手法を用いて,異なるタイプのLDM自己知識に関する本質的な洞察を得ることを目的とする。 GPT-4oやMistral Largeのようなフロンティアモデルでさえ、その80%以上の能力を確信していないことが分かりました。
論文参考訳（メタデータ） (2025-03-14T10:07:07Z)
ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-02-20T13:50:02Z)
Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文参考訳（メタデータ） (2024-12-19T15:39:31Z)
Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築 GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-08-29T08:02:09Z)
Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis [35.734425912914176]
大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。
論文参考訳（メタデータ） (2024-07-21T22:50:11Z)
Large Language Models have Intrinsic Self-Correction Ability [16.831123666582755]
大規模言語モデルは、性能劣化を引き起こす幻覚に悩まされる。 LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文参考訳（メタデータ） (2024-06-21T22:29:40Z)
On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [36.27550578296276]
大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
論文参考訳（メタデータ） (2024-06-04T14:55:43Z)
A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。 LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文参考訳（メタデータ） (2024-05-28T22:33:02Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)
Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文参考訳（メタデータ） (2024-04-14T07:19:27Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Confidence Matters: Revisiting Intrinsic Self-Correction Capabilities of Large Language Models [23.42725642076256]
大規模言語モデル(LLM)は、自己訂正能力への関心が高まっている。本稿では,LLMの内在的自己補正に関する包括的研究について述べる。 We developed a "If-or-Else" prompting framework, designed to guide LLMs in evaluation of their "confidence"。
論文参考訳（メタデータ） (2024-02-19T21:38:02Z)
Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-02-14T15:52:42Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Improving the Reliability of Large Language Models by Leveraging Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-07T12:06:53Z)
Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。生成したコンテンツの正確性と適切性に関する懸念が続いている。現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文参考訳（メタデータ） (2023-10-03T04:56:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。