論文の概要: Decomposing LLM Self-Correction: The Accuracy-Correction Paradox and Error Depth Hypothesis
- arxiv url: http://arxiv.org/abs/2601.00828v1
- Date: Wed, 24 Dec 2025 21:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.530649
- Title: Decomposing LLM Self-Correction: The Accuracy-Correction Paradox and Error Depth Hypothesis
- Title(参考訳): LLM自己補正の分解:精度補正パラドックスと誤り深さ仮説
- Authors: Yin Li,
- Abstract要約: 自己補正を3つのサブ機能に分解する。
本研究は,モデル能力と自己改善に関する線形仮定に挑戦する。
- 参考スコア(独自算出の注目度): 6.901585308625979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are widely believed to possess self-correction capabilities, yet recent studies suggest that intrinsic self-correction--where models correct their own outputs without external feedback--remains largely ineffective. In this work, we systematically decompose self-correction into three distinct sub-capabilities: error detection, error localization, and error correction. Through cross-model experiments on GSM8K-Complex (n=500 per model, 346 total errors) with three major LLMs, we uncover a striking Accuracy-Correction Paradox: weaker models (GPT-3.5, 66% accuracy) achieve 1.6x higher intrinsic correction rates than stronger models (DeepSeek, 94% accuracy)--26.8% vs 16.7%. We propose the Error Depth Hypothesis: stronger models make fewer but deeper errors that resist self-correction. Error detection rates vary dramatically across architectures (10% to 82%), yet detection capability does not predict correction success--Claude detects only 10% of errors but corrects 29% intrinsically. Surprisingly, providing error location hints hurts all models. Our findings challenge linear assumptions about model capability and self-improvement, with important implications for the design of self-refinement pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)は自己訂正能力を持っていると広く信じられているが、近年の研究では、内在的な自己補正-モデルが外部からのフィードバックなしで出力を補正する-ほとんど効果がないことが示唆されている。
本研究では,自己補正を,誤り検出,誤り局所化,誤り訂正の3つのサブ機能に体系的に分解する。
GSM8K-コンプレックス(モデル毎のn=500、総誤差346)の3つの主要なLCMによるクロスモデル実験により、より弱いモデル(GPT-3.5、66%の精度)がより強いモデル(ディープシーク、94%の精度)よりも1.6倍高い内在補正率(ディープシーク、94%の精度)--26.8%対16.7%という顕著な精度補正パラドックスが発見された。
より強いモデルは、自己補正に抵抗するより少ないがより深い誤りを生じさせる。
エラー検出率はアーキテクチャによって大きく異なる(10%から82%)が、検出能力は修正の成功を予測しない。
驚いたことに、エラー位置ヒントを提供することは、すべてのモデルを傷つける。
本研究は, モデル能力と自己改善に関する線形仮定に挑戦し, 自己補充パイプラインの設計に重要な意味を持つことを示した。
関連論文リスト
- Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (2025-07-16T16:27:50Z) - Self-Correction Bench: Uncovering and Addressing the Self-Correction Blind Spot in Large Language Models [0.7910367295422812]
大規模言語モデル(LLM)は誤りを犯し、非生産的推論経路を探索することができる。
自己補正機能は、安全クリティカルなアプリケーションにLLMをデプロイするために不可欠である。
LLMは、外部ソースから同一のエラーを修正しながら、自身の出力でエラーを修正することはできない。
論文 参考訳(メタデータ) (2025-07-03T16:41:30Z) - Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z) - Sherlock: Self-Correcting Reasoning in Vision-Language Models [27.122890248991556]
Reasoning Vision-Language Models (VLM) は複雑なマルチモーダルタスクにおいて有望な性能を示す。
推論エラーに非常に敏感で、大量の注釈付きデータや正確な検証が必要であり、一般化に苦慮している。
自己補正と自己改善のトレーニングフレームワークであるSherlockを紹介します。
Llama3.2-Vision-11Bモデルをベースにしたシャーロックは8つのベンチマークで顕著な結果を得た。
論文 参考訳(メタデータ) (2025-05-28T17:58:03Z) - IRepair: An Intent-Aware Approach to Repair Data-Driven Errors in Large Language Models [11.075423190298686]
大規模言語モデル(LLM)はデータセットのバイアスに弱いことで知られており、毒性などの問題を引き起こす。
本稿では,動的スライシングに基づく意図認識型LLM修復戦略であるIRepairを紹介する。
IRepairはエラーを43.6%効率よく修復する一方で,一般性能の46%低下を招いた。
論文 参考訳(メタデータ) (2025-02-10T22:07:02Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。