論文の概要: Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning
- arxiv url: http://arxiv.org/abs/2506.15894v1
- Date: Wed, 18 Jun 2025 21:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.867201
- Title: Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning
- Title(参考訳): 摂動推論の単一発話自己補正を行う言語モデル
- Authors: Sam Silver, Jimin Sun, Ivan Zhang, Sara Hooker, Eddie Kim,
- Abstract要約: 大規模言語モデル(LLM)は、驚くべき数学的推論能力を示している。
それらの性能は、問題記述と迅速な戦略の微妙なバリエーションに引き続き脆弱である。
近年のモデルの自己補正能力をよりよく理解するために,モデルが自己補正合成を行う能力を測定する実験を行った。
- 参考スコア(独自算出の注目度): 4.768151813962547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive mathematical reasoning capabilities, yet their performance remains brittle to minor variations in problem description and prompting strategy. Furthermore, reasoning is vulnerable to sampling-induced errors which autoregressive models must primarily address using self-correction via additionally-generated tokens. To better understand self-correction capabilities of recent models, we conduct experiments measuring models' ability to self-correct synthetic perturbations introduced into their Chain of Thought (CoT) reasoning. We observe robust single-utterance intrinsic self-correction behavior across a range of open-weight models and datasets, ranging from subtle, implicit corrections to explicit acknowledgments and corrections of errors. Our findings suggest that LLMs, including those not finetuned for long CoT, may possess stronger intrinsic self-correction capabilities than commonly shown in the literature. The presence of this ability suggests that recent "reasoning" model work involves amplification of traits already meaningfully present in models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、目覚ましい数学的推論能力を示してきたが、その性能は、問題記述の微妙なバリエーションや戦略の推進に弱いままである。
さらに、推論はサンプリングによって引き起こされるエラーに対して脆弱であり、自己回帰モデルは追加生成トークンを介して自己補正を使用する必要がある。
近年のモデルの自己補正能力をよりよく理解するために,我々はモデルが思考の連鎖(CoT)推論に導入した自己補正型合成摂動を計測する実験を行った。
オープンウェイトモデルやデータセットにまたがる頑健な単一発話固有の自己補正挙動を観察する。
以上の結果から,LLMは長いCoTで微調整されていないものも含め,本態性自己補正能力が高い可能性が示唆された。
この能力の存在は、最近の「推論」モデル作業には、既にモデルに有意義に存在する特性の増幅が含まれることを示唆している。
関連論文リスト
- Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。
LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。
本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T23:01:16Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Smaller Large Language Models Can Do Moral Self-Correction [11.060513574408658]
自己補正は、大規模言語モデル(LLM)の最も驚くべき新興能力の1つです。
道徳的自己補正(Moral self-correction)は、非倫理的世代を勾配更新を必要とせずに修正するポストホックアプローチである。
以前の研究では、LLMは自己退行を可能としており、22B未満のパラメータを持つ小さなモデルでは道徳的な自己訂正ができないことが報告されている。
論文 参考訳(メタデータ) (2024-10-30T22:58:57Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。
入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。
複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T02:59:10Z) - N-Critics: Self-Refinement of Large Language Models with Ensemble of
Critics [5.516095889257118]
本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。
この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。
論文 参考訳(メタデータ) (2023-10-28T11:22:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。