論文の概要: Self-Verification Dilemma: Experience-Driven Suppression of Overused Checking in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.03485v1
- Date: Tue, 03 Feb 2026 12:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.455155
- Title: Self-Verification Dilemma: Experience-Driven Suppression of Overused Checking in LLM Reasoning
- Title(参考訳): 自己検証ジレンマ: LLM推論における過剰チェックの体験駆動抑制
- Authors: Quanyu Long, Kai Jie Jiang, Jianda Chen, Xu Guo, Leilei Gan, Wenya Wang,
- Abstract要約: 大規模な推論モデル(LRM)は、反射を伴う長い推論トレースを生成することにより、強い性能を達成する。
その結果, 自己検証(再確認)により, 中間結果の確認が繰り返し行われることが判明した。
これは、自己検証の頻度と実際に役に立つ頻度のミスマッチを明らかにします。
過剰な検証を削減できる新しい経験駆動型テストタイムフレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.979418392479033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) achieve strong performance by generating long reasoning traces with reflection. Through a large-scale empirical analysis, we find that a substantial fraction of reflective steps consist of self-verification (recheck) that repeatedly confirm intermediate results. These rechecks occur frequently across models and benchmarks, yet the vast majority are confirmatory rather than corrective, rarely identifying errors and altering reasoning outcomes. This reveals a mismatch between how often self-verification is activated and how often it is actually useful. Motivated by this, we propose a novel, experience-driven test-time framework that reduces the overused verification. Our method detects the activation of recheck behavior, consults an offline experience pool of past verification outcomes, and estimates whether a recheck is likely unnecessary via efficient retrieval. When historical experience suggests unnecessary, a suppression signal redirects the model to proceed. Across multiple model and benchmarks, our approach reduces token usage up to 20.3% while maintaining the accuracy, and in some datasets even yields accuracy improvements.
- Abstract(参考訳): 大規模な推論モデル(LRM)は、反射を伴う長い推論トレースを生成することにより、強い性能を達成する。
大規模な実証分析により,中間結果の検証を繰り返し行う自己検証(再確認)によって,ある程度の反射ステップが形成されることがわかった。
これらの再チェックはモデルやベンチマーク間で頻繁に行われるが、大多数は修正ではなく確認され、エラーの特定や推論結果の変更はまれである。
これは、自己検証の頻度と実際に役に立つ頻度のミスマッチを明らかにします。
そこで我々は,過剰な検証を減らした,新しい経験駆動型テストタイムフレームワークを提案する。
提案手法は,リチェック動作の活性化を検出し,過去の検証結果のオフライン体験プールを参照し,効率的な検索によってリチェックが不要かどうかを推定する。
歴史的経験が不要であることを示すとき、抑制信号がモデルを進めるようにリダイレクトする。
複数のモデルとベンチマークを通じて、精度を維持しながらトークンの使用量を最大20.3%削減し、一部のデータセットでは精度の向上も実現している。
関連論文リスト
- When Does Verification Pay Off? A Closer Look at LLMs as Solution Verifiers [11.937771430269201]
本稿では,37大言語モデル(LLM)の体系的研究について述べる。
自己検証と同一家族内および異なる家族間での検証を比較した。
検証者ゲインや偽陽性率尺度などのメトリクスをモデルサイズと後トレーニングで分析し,データセットの妥当性の違いを特徴付ける。
論文 参考訳(メタデータ) (2025-12-02T00:51:14Z) - Batch Prompting Suppresses Overthinking Reasoning Under Constraint: How Batch Prompting Suppresses Overthinking in Reasoning Models [5.408799241182959]
我々は,Large Reasoning Models (LRMs) の多段階推論におけるモデル挙動を規則化することを示した。
我々は、13の多様なベンチマークを総合的に調査し、トークンの使用理由を著しく減らしながら精度を向上する観察を行った。
驚くべきことに、バッチ推論における創発的な集団効果も観察する:モデルは、しばしば以前の例からパターンを一般化して、難しいものを解決する。
論文 参考訳(メタデータ) (2025-11-06T06:47:39Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs [87.79350168490475]
本研究は, 自己整合誤差を正式に定義し, 主流検出手法の評価を行う。
4種類の検出方法は全て、自己整合性エラーを検出するのにかなり苦労している。
自己整合性誤差がLLM間でしばしば異なるという観測により、我々は単純で効果的なクロスモデルプローブを提案する。
論文 参考訳(メタデータ) (2025-05-23T09:18:56Z) - When Claims Evolve: Evaluating and Enhancing the Robustness of Embedding Models Against Misinformation Edits [5.443263983810103]
ユーザーはオンラインでクレームと対話するので、しばしば編集を導入し、現在の埋め込みモデルがそのような編集に堅牢かどうかは不明だ。
本研究では, 文埋め込みモデルの頑健性を評価するために, 有効かつ自然なクレーム変動を生成する摂動フレームワークを提案する。
評価の結果,標準埋込モデルでは編集されたクレームに顕著な性能低下がみられ,LCM蒸留埋込モデルでは高い計算コストでロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2025-03-05T11:47:32Z) - Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification [35.347715518778095]
本研究では,サンプリングに基づく探索を規定するスケーリング傾向について検討する。
サンプリングベース検索の最小限の実装を単純にスケールアップするだけで、実用的な推論法が得られます。
テスト時間計算で自己検証能力を改善するための2つの有用な原則を同定する。
論文 参考訳(メタデータ) (2025-02-03T21:31:07Z) - Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。
検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。
サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文 参考訳(メタデータ) (2025-02-01T02:08:49Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。