論文の概要: Guarded Repair for Harm-Aware Post-hoc Replacement of LLM Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2605.24613v1
- Date: Sat, 23 May 2026 14:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.27406
- Title: Guarded Repair for Harm-Aware Post-hoc Replacement of LLM Mathematical Reasoning
- Title(参考訳): LLM数理推論の高調波後置換に対するガード付き修復術
- Authors: Haizhou Xia,
- Abstract要約: GuardedRepairは、キャッシュされた推論トレースを診断し、修正を選択的にトリガーし、答えを変える候補を受け入れる、最高のN修復フレームワークである。
GuardedRepairは、固定/壊れたトレードオフを大幅に改善すると同時に、削除されるよりも、置き換えのリスクが低減されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-hoc repair of LLM mathematical reasoning introduces an asymmetric risk: fixing an incorrect reasoning trace is useful, but replacing a trace that was already correct can be harmful. We study this problem under a selective replacement setting, where a system must decide whether a repaired candidate is safer than preserving the original cached trace. We present GuardedRepair, a guarded best-of-N repair framework that diagnoses cached reasoning traces, selectively triggers repair, and accepts answer-changing candidates only when deterministic verification guards support replacement. The framework combines lightweight symbolic checks, surface semantic-risk diagnostics, bounded candidate generation, and conservative acceptance policies. On the full GSM8K test set, where the initial reasoner already achieves 95.60% accuracy, GuardedRepair improves final accuracy to 96.89%, fixing 17 of 58 remaining errors without measured broken-correct cases in the main run. On a weak-reasoner ASDiv setting, accuracy improves from 78.40% to 87.60%. Direct regeneration baselines show that this gain is not explained by stronger-model re-solving alone: re-solving all GSM8K examples lowers accuracy to 93.03% and breaks 47 initially correct answers. Additional analyses show that guarded repair substantially improves the fixed/broken tradeoff, while also revealing that replacement risk is reduced rather than eliminated. These results support viewing post-hoc repair as harm-aware selective replacement rather than unconstrained re-solving.
- Abstract(参考訳): 誤った推論トレースの修正は有用であるが、既に正しいトレースを置き換えることは有害である。
そこで本研究では,修復された候補が元のキャッシュトレースを保存するよりも安全かどうかをシステムが判断しなければならない,選択的な代替設定の下でこの問題を考察する。
GuardedRepairは、キャッシュされた推論トレースを診断し、選択的に修復をトリガーし、決定論的検証ガードが置換をサポートする場合にのみ応答変更候補を受け入れるガード付きベストオブN修復フレームワークである。
このフレームワークは、軽量なシンボルチェック、表面的なセマンティックリスク診断、有界候補生成、保守的な受け入れポリシーを組み合わせる。
GSM8Kの完全なテストセットでは、初期推論器が95.60%の精度で最終的な精度を96.89%向上し、メインランで測定された壊れた正確なケースなしに58のエラーのうち17を修正した。
ASDivの弱い設定では、精度は78.40%から87.60%に向上する。
直接再生ベースラインは、この利得がより強いモデルの再解法だけでは説明されないことを示している: すべての GSM8K の例を再解法は精度を 93.03% に下げ、最初は47 の正解を破る。
追加的な分析では、ガードされた修復は固定/故障トレードオフを大幅に改善する一方で、除去されるよりも代替リスクを低減させることを示した。
これらの結果は、制約のない再解決ではなく、有害な選択的な代替品として、保温後修復の視認を支援する。
関連論文リスト
- Relative Repairability: A Calibration-Based Diagnostic for High-Sparsity Post-Pruning Allocation [12.288779306467768]
相対修復性 (RR) はキャリブレーションに基づく診断であり、層状プルーニングによる生の活性化歪みとチャネル状分散整合修復後の残留歪みを比較する。
RRはアーキテクチャ依存の回復可能性遷移(Recoverability transition)の近くで最も有用であり、標準的な構造や大きさに基づくアロケーションが信頼性を失い始めるが、修復後のリカバリはまだ完全には崩壊していない。
これらの結果から, 高い疎水性プルーニングは, 保持重量だけでなく, 修復性にも寄与することが示唆された。
論文 参考訳(メタデータ) (2026-05-25T07:12:38Z) - MEMOREPAIR: Barrier-First Cascade Repair in Agentic Memory [6.860488391361694]
エージェント記憶のためのバリアファーストカスケード修復契約を提示する。
修理イベントは、無効化された子孫状態から検証された後継者状態への制御された遷移を誘導する。
本研究では, 発刊問題を最大重み付き前者閉鎖に還元し, 単一のs-t min-cutで正確に解けることを示す。
論文 参考訳(メタデータ) (2026-05-08T04:57:29Z) - ANNEAL: Adapting LLM Agents via Governed Symbolic Patch Learning [12.44509691077682]
本稿では,繰り返し発生する障害をプロセス知識グラフのシンボル編集に変換する神経シンボルエージェントであるANNEALを紹介する。
その中核となるメカニズムであるFDKA(Failure-Driven Knowledge Acquisition)は、責任のあるオペレータをローカライズし、制約付きLLM生成を通じて型付きパッチを合成し、提案を検証する。
4つのドメインと27のマルチシードランをまたいだANNEALは、永続的な構造修復を行う唯一の評価システムである。
論文 参考訳(メタデータ) (2026-05-04T05:24:03Z) - Are Benchmark Tests Strong Enough? Mutation-Guided Diagnosis and Augmentation of Regression Suites [49.16055123488827]
十分に強力なテストスイートは、報告された成功率を膨らませながら、妥当だが意味的に正しくないパッチを認めることができる。
STINGは、意味的に変化するプログラムの変種を診断ストレス要因として利用する、ターゲットテスト拡張のためのフレームワークである。
STINGは211インスタンスにまたがる1014の検証テストを生成し、パッチリージョンラインとブランチカバレッジを10.8%、9.5%向上させた。
論文 参考訳(メタデータ) (2026-04-02T01:13:40Z) - Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away [97.11976870616273]
本稿では,安全回復を目的ではなく満足度の高い制約として扱う軽量な推論時防衛法を提案する。
6つのオープンソースMLRMと4つのjailbreakベンチマークで評価した結果、SafeThinkは攻撃成功率を30~60%削減しました。
論文 参考訳(メタデータ) (2026-02-11T18:09:17Z) - Specification Vibing for Automated Program Repair [8.68148153927532]
VibeRepairは仕様中心のAPR技術で、修正をアドホックなコード編集ではなく、行動特化修復として扱う。
Defects4J v1.2では、VibeRepairが174のバグを正しく修復し、最先端のベースラインを28のバグで越えている。
Defects4J v2.0では、178のバグを修復し、33のバグによる以前のアプローチよりも優れ、23%の改善を示している。
論文 参考訳(メタデータ) (2026-02-09T04:44:58Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。