論文の概要: Synthetic Error Injection Fails to Elicit Self-Correction In Language Models
- arxiv url: http://arxiv.org/abs/2512.02389v1
- Date: Tue, 02 Dec 2025 03:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.710129
- Title: Synthetic Error Injection Fails to Elicit Self-Correction In Language Models
- Title(参考訳): 言語モデルにおける自己補正に対する合成誤差注入の欠陥
- Authors: David X. Wu, Shreyas Kapur, Anant Sahai, Stuart Russell,
- Abstract要約: 合成誤り注入による教師付き学習が言語モデルにおける自己補正能力を誘導するかどうかを検討する。
我々のアプローチは、人工的なエラーを推論チェーンに挿入し、それらをマスクし、これらの誤りを認識し修正するためのモデルを監督する。
本研究は,政策強化学習法が自己補正に一意に有効であることが証明された理由を説明するのに有用である。
- 参考スコア(独自算出の注目度): 14.76894432271754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has become the dominant paradigm for eliciting reasoning and self-correction capabilities in large language models, but its computational expense motivates exploration of alternatives. Inspired by techniques from autonomous driving and robotics, we investigate whether supervised learning with synthetic error injection can induce self-correction abilities in language models. Our approach inserts artificial errors into reasoning chains, masks them, and supervises the model to recognize and correct these mistakes. Despite the intuitive appeal of this method, we find that it fails to significantly improve performance even on simple synthetic tasks across multiple models. Moreover, even when the model catches its own error, it often parrots the original mistake. We find that the distribution shift of synthetic errors to on-policy errors significantly degrades the error-correction capabilities of the fine-tuned model, even with good synthetic coverage of on-policy errors. Our results help explain why on-policy reinforcement learning methods have proven uniquely effective for eliciting self-correction.
- Abstract(参考訳): 強化学習は、大規模言語モデルにおける推論と自己補正能力を引き出す主要なパラダイムとなっているが、その計算費用は代替品の探索を動機としている。
自動走行とロボット工学の技法に触発されて,合成誤り注入による教師あり学習が言語モデルにおける自己補正能力を誘導するかどうかを検討した。
我々のアプローチは、人工的なエラーを推論チェーンに挿入し、それらをマスクし、これらの誤りを認識し修正するためのモデルを監督する。
この手法の直感的な魅力にもかかわらず、複数のモデルにまたがる単純な合成タスクにおいても性能が著しく向上しないことがわかった。
さらに、モデルが独自のエラーをキャッチしても、元のミスをパーローすることが多い。
合成エラーからオンラインエラーへの分布シフトは, オンラインエラーの良好な合成カバレッジをもちながら, 微調整モデルの誤り訂正能力を著しく低下させることがわかった。
本研究は,政策強化学習法が自己補正に一意に有効であることが証明された理由を説明するのに有用である。
関連論文リスト
- From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - Error Reflection Prompting: Can Large Language Models Successfully Understand Errors? [8.4909975287531]
チェーン・オブ・シント(CoT)手法は、与えられたタスクに対処するための正しい手順をよりよく理解したモデルを装備することを目的としている。
本稿では,言語モデルにおける推論をさらに強化するために,エラーリフレクション・プロンプト(ERP)を提案する。
論文 参考訳(メタデータ) (2025-08-22T18:02:36Z) - Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning [4.768151813962547]
大規模言語モデル(LLM)は、驚くべき数学的推論能力を示している。
それらの性能は、問題記述と迅速な戦略の微妙なバリエーションに引き続き脆弱である。
近年のモデルの自己補正能力をよりよく理解するために,モデルが自己補正合成を行う能力を測定する実験を行った。
論文 参考訳(メタデータ) (2025-06-18T21:35:44Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Grammatical Error Generation Based on Translated Fragments [0.0]
英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。
本手法は,第2言語学習者が犯した誤りをシミュレートすることを目的として,非ネイティブスタイル言語を幅広く生成する。
論文 参考訳(メタデータ) (2021-04-20T12:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。