論文の概要: When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention
- arxiv url: http://arxiv.org/abs/2604.22273v1
- Date: Fri, 24 Apr 2026 06:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.367549
- Title: When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention
- Title(参考訳): LLM自己補正はいつ役立つか? : 制御理論マルコフの診断と第1次介入の検証
- Authors: Aofan Liu, Jingxiang Meng,
- Abstract要約: 反復的自己補正はエージェントLLMシステムで広く用いられているが、反復的な改善が痛みと痛みを和らげるときにはまだ不明瞭である。
我々は,自己補正をサイバネティックフィードバックループとみなし,同じ言語モデルがコントローラとプラントの両方の役割を担っている。
有害な自己補正から有益に分離した近赤外域(=0.5%)の鋭いしきい値(=0.5%)が得られた。
- 参考スコア(独自算出の注目度): 0.9525172018746524
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Iterative self-correction is widely used in agentic LLM systems, but when repeated refinement helps versus hurts remains unclear. We frame self-correction as a cybernetic feedback loop in which the same language model serves as both controller and plant, and use a two-state Markov model over {Correct, Incorrect} to operationalize a simple deployment diagnostic: iterate only when ECR/EIR > Acc/(1 - Acc). In this view, EIR functions as a stability margin and prompting functions as lightweight controller design. Across 7 models and 3 datasets (GSM8K, MATH, StrategyQA), we find a sharp near-zero EIR threshold (<= 0.5%) separating beneficial from harmful self-correction. Only o3-mini (+3.4 pp, EIR = 0%), Claude Opus 4.6 (+0.6 pp, EIR ~ 0.2%), and o4-mini (+/-0 pp) remain non-degrading; GPT-5 degrades by -1.8 pp. A verify-first prompt ablation provides causal evidence that this threshold is actionable through prompting alone: on GPT-4o-mini it reduces EIR from 2% to 0% and turns -6.2 pp degradation into +0.2 pp (paired McNemar p < 10^-4), while producing little change on already-sub-threshold models. ASC further illustrates the stopping trade-off: it halts harmful refinement but incurs a 3.8 pp confidence-elicitation cost. Overall, the paper argues that self-correction should be treated not as a default behavior, but as a control decision governed by measurable error dynamics.
- Abstract(参考訳): 反復的自己補正はエージェントLLMシステムで広く用いられているが、反復的な改善が痛みと痛みを和らげるときにはまだ不明瞭である。
我々は、同じ言語モデルがコントローラとプラントの両方として機能するサイバネティックフィードバックループとして自己補正を行い、単純なデプロイメント診断を運用するために {Correct, Incorrect} 上で2状態マルコフモデルを使用します。
この観点では、EIRは安定性の限界として機能し、軽量なコントローラ設計として機能する。
7つのモデルと3つのデータセット(GSM8K、MATH、StrategyQA)にまたがって、有害な自己補正から恩恵を受けられる鋭い近ゼロEIRしきい値(=0.5%)が見つかった。
o3-mini (+3.4 pp, EIR = 0%), Claude Opus 4.6 (+0.6 pp, EIR ~ 0.2%), o4-mini (+/-0 pp) のみが非劣化のままであり、GPT-5は-1.8 ppで劣化する。
GPT-4o-miniでは、EIRを2%から0%に減らし、-6.2 ppの劣化を+0.2 pp(paired McNemar p < 10^-4)に変化させるが、既にサブスレッショルドモデルではほとんど変化しない。
ASCは有害な精製を停止するが、3.8ppの信頼緩和コストを発生させる。
全体として、自己補正はデフォルトの振る舞いではなく、測定可能なエラーダイナミクスによって支配される制御決定として扱うべきであると論じている。
関連論文リスト
- The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - Predictive Entropy Links Calibration and Paraphrase Sensitivity in Medical Vision-Language Models [2.064612766965483]
我々は,MedGemma 4BITの分布MIMIC CXRと外分布PadChest chest X ray データセットの5つの不確実性定量化手法を示し,LLaVA RAD7Bのクロスアーキテクチャ検証を行った。
うまく校正された単一モデル法では、一方のフォワードパスからの予測エントロピーは、メドジェマのAUROC 0.711、LLaVARAD p 10 4の0.878、信頼できないと敏感な予測の両方を1つのエントロピーしきい値でフラグ付けることができる。
論文 参考訳(メタデータ) (2026-04-10T04:18:47Z) - Low-Rank Adaptation Reduces Catastrophic Forgetting in Sequential Transformer Encoder Fine-Tuning: Controlled Empirical Evidence and Frozen-Backbone Representation Probes [3.305265383862785]
コンパニオン表現プローブを用いたシーケンシャルトランスフォーマーエンコーダにおけるローランド適応(LoRA)の実証的研究について述べる。
RTE->MRPC->CoLA->SST-2配列上の5つのフルバリデーションBERTベースでは、フル微調整の収率は19.9%+/-で、標準のLoRA(r、クエリ/バリューモジュール)は0.6%+/-1.4%である。
論文 参考訳(メタデータ) (2026-03-29T14:14:36Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs [0.6345523830122167]
大規模言語モデルは、ドメイン適応と命令アライメントを組み合わせる際に驚くべきアダプタ干渉を示す。
医学LLMのための2段階のLORAパイプラインについて検討し、ドメイン指向事前トレーニング(PT)と教師付き微調整(SFT)を個別に訓練し、後にマージした。
論文 参考訳(メタデータ) (2026-01-26T10:54:06Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。