論文の概要: Self-correction is Not An Innate Capability in Large Language Models: A Case Study of Moral Self-correction
- arxiv url: http://arxiv.org/abs/2410.20513v5
- Date: Thu, 06 Mar 2025 21:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:01:09.935248
- Title: Self-correction is Not An Innate Capability in Large Language Models: A Case Study of Moral Self-correction
- Title(参考訳): 大規模言語モデルにおける自己補正は自然能力ではない:道徳的自己補正を事例として
- Authors: Guangliang Liu, Zimo Qi, Xitong Zhang, Lu Cheng, Kristen Marie Johnson,
- Abstract要約: 我々は、道徳的自己補正は大規模言語モデル(LLM)の本質的な能力ではないと論じる。
我々は,CoT(Chain-of-Thought)推論や外部フィードバックといった自己補正の重要な構成要素が,道徳的自己補正を実現するためにどのように相互作用するかを,機械論的に分析する。
- 参考スコア(独自算出の注目度): 8.61034573238112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though there has been intensive attention to the self-correction capability of Large Language Models (LLMs), conclusions regarding its effectiveness remain varied. In this paper, we investigate a fundamental question: is moral self-correction an innate capability in LLMs? To explore this, we conduct (1) a mechanistic analysis of how key components of self-correction, such as Chain-of-Thought (CoT) reasoning and external feedback, interact to enable moral self-correction; and (2) a behavioral analysis of LLMs' ability to distinguish between desired and undesired outputs, introducing a self-distinguish framework. Our mechanistic analysis reveals that LLMs struggle to effectively leverage helpful feedback, and conflicts can arise between feedback and CoT reasoning. These limitations suggest that LLMs fail to identify useful contextual information, instead prioritizing their own internal knowledge. Additionally, our behavioral analysis indicates that LLMs struggle to differentiate among their own outputs. Based on these empirical findings across two analytical dimensions, mechanism and behavior, we argue that moral self-correction is not an innate capability of LLMs.
- Abstract(参考訳): LLM(Large Language Models)の自己補正能力に注目が集まっているが、その効果に関する結論は様々である。
本稿では,道徳的自己補正は LLM の本質的な能力か,という根本的な疑問について考察する。
そこで本研究では,(1)CoT(Chain-of-Thought)推論や外部からのフィードバックといった自己補正のキーコンポーネントが,道徳的自己補正を実現するためにどのように相互作用するか,(2)所望のアウトプットと望ましくないアウトプットを区別するLLMの行動分析を行い,自己識別フレームワークを導入する。
我々の力学解析によると、LLMは有用なフィードバックを効果的に活用するのに苦労しており、フィードバックとCoT推論の衝突が発生する可能性がある。
これらの制限は、LLMが自身の内部知識を優先する代わりに、有用なコンテキスト情報の特定に失敗したことを示唆している。
さらに, 行動分析の結果から, LLMはそれぞれの出力の区別に苦慮していることが明らかとなった。
これら2つの分析次元、メカニズム、行動に関する経験的知見に基づいて、道徳的自己補正はLLMの本質的な能力ではないと論じる。
関連論文リスト
- Line of Duty: Evaluating LLM Self-Knowledge via Consistency in Feasibility Boundaries [0.0]
本研究は,新たな手法を用いて,異なるタイプのLDM自己知識に関する本質的な洞察を得ることを目的とする。
GPT-4oやMistral Largeのようなフロンティアモデルでさえ、その80%以上の能力を確信していないことが分かりました。
論文 参考訳(メタデータ) (2025-03-14T10:07:07Z) - Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis [35.734425912914176]
大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。
最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。
自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。
論文 参考訳(メタデータ) (2024-07-21T22:50:11Z) - Large Language Models have Intrinsic Self-Correction Ability [16.831123666582755]
大規模言語モデルは、性能劣化を引き起こす幻覚に悩まされる。
LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。
内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文 参考訳(メタデータ) (2024-06-21T22:29:40Z) - On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [36.27550578296276]
大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。
内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。
内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
論文 参考訳(メタデータ) (2024-06-04T14:55:43Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Confidence Matters: Revisiting Intrinsic Self-Correction Capabilities of Large Language Models [23.42725642076256]
大規模言語モデル(LLM)は、自己訂正能力への関心が高まっている。
本稿では,LLMの内在的自己補正に関する包括的研究について述べる。
We developed a "If-or-Else" prompting framework, designed to guide LLMs in evaluation of their "confidence"。
論文 参考訳(メタデータ) (2024-02-19T21:38:02Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。