論文の概要: Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs
- arxiv url: http://arxiv.org/abs/2507.02778v1
- Date: Thu, 03 Jul 2025 16:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.595266
- Title: Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs
- Title(参考訳): 自己補正ベンチ:LLMにおける自己補正ブラインドスポットの探索と対応
- Authors: Ken Tsui,
- Abstract要約: 自己補正は大規模言語モデル(LLM)にとって重要な機能である
LLMはユーザ入力における誤りを識別できるが、体系的な「自己補正ブラインドスポット」を提示する。
14のモデルをテストすると、平均64.5%の失明率が得られる。
注目すべきは、単に"Wait"を追加するだけで盲点が89.3%減少し、その能力は存在するがアクティベーションが必要であることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large language models (LLMs) have become transformative, they still make mistakes and can explore unproductive reasoning paths. Self-correction is an important capability for a trustworthy LLM, particularly an autoregressive LLM. While LLMs can identify error in user input, they exhibit a systematic 'Self-Correction Blind Spot' - failing to correct identical error in their own outputs. To systematically study this phenomenon, we introduce Self-Correction Bench, a systematic framework to measure this phenomenon through controlled error injection at three complexity levels. Testing 14 models, we find an average 64.5% blind spot rate. We find multiple evidences that this limitation relates to training data composition: human training demonstrations predominantly show error-free responses rather than error-correction sequences, unlike RL-trained models that learn error correction through outcome feedback. Remarkably, simply appending "Wait" reduces blind spots by 89.3%, suggesting that the capability exists but requires activation. Our work highlights a critical limitation in current LLMs and offers potential avenues for improving their reliability and trustworthiness.
- Abstract(参考訳): 大規模言語モデル(LLM)は変質的になったが、それでも間違いを犯し、非生産的推論経路を探索することができる。
自己補正は信頼性の高いLDM、特に自己回帰LDMにとって重要な能力である。
LLMはユーザ入力のエラーを識別できるが、体系的な'自己補正ブラインドスポット'(Self-Correction Blind Spot)を示す。
この現象を体系的に研究するために,3つの複雑性レベルにおける制御誤差注入により,この現象を測定するための体系的枠組みであるSelf-Correction Benchを導入する。
14のモデルをテストすると、平均64.5%の失明率が得られる。
人間のトレーニングデモは、主にエラー訂正シーケンスではなく、エラーのない応答を示す。
注目すべきは、単に"Wait"を追加するだけで盲点が89.3%減少し、その能力は存在するがアクティベーションが必要であることを示唆している。
我々の研究は、現在のLLMの限界を強調し、信頼性と信頼性を向上させるための潜在的手段を提供する。
関連論文リスト
- Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - ATTNChecker: Highly-Optimized Fault Tolerant Attention for Large Language Model Training [14.178223242134166]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を示した。
LLMは、特にアテンション機構において故障の影響を受けやすいが、これはトランスフォーマーベースのLLMの重要な構成要素である。
我々は,LLMにおけるアテンション機構に適したアルゴリズムベースフォールトトレランス(ABFT)技術であるATTNCheckerを提案する。
論文 参考訳(メタデータ) (2024-10-15T15:52:45Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Large Language Models have Intrinsic Self-Correction Ability [18.79203446847577]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な能力に対して大きな注目を集めている。
LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。
内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文 参考訳(メタデータ) (2024-06-21T22:29:40Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。