論文の概要: Asking LLMs to Verify First is Almost Free Lunch
- arxiv url: http://arxiv.org/abs/2511.21734v1
- Date: Fri, 21 Nov 2025 09:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.186267
- Title: Asking LLMs to Verify First is Almost Free Lunch
- Title(参考訳): LLMに最初の検証を依頼するのは、ほとんど無料
- Authors: Shiguang Wu, Quanming Yao,
- Abstract要約: 大規模言語モデル(LLM)の推論能力を高めるために、検証ファースト(VF)を導入する。
VFは、ソリューションを生成する前に、提供された候補回答、あるいは自明またはランダムな回答を検証するようモデルに促す。
検証生成過程を反復的に循環する逐次テスト時間スケーリング (TTS) 手法である Iter-VF に VF 戦略を一般化する。
- 参考スコア(独自算出の注目度): 36.15605737954829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To enhance the reasoning capabilities of Large Language Models (LLMs) without high costs of training, nor extensive test-time sampling, we introduce Verification-First (VF), a strategy that prompts models to verify a provided candidate answer, even a trivial or random one, before generating a solution. This approach triggers a "reverse reasoning" process that is cognitively easier and complementary to standard forward Chain-of-Thought (CoT), effectively invoking the model's critical thinking to reduce logical errors. We further generalize the VF strategy to Iter-VF, a sequential test-time scaling (TTS) method that iteratively cycles the verification-generation process using the model's previous answer. Extensive experiments across various benchmarks (from mathematical reasoning to coding and agentic tasks) and various LLMs (from open-source 1B to cutting-edge commercial ones) confirm that VF with random answer consistently outperforms standard CoT with minimal computational overhead, and Iter-VF outperforms existing TTS strategies.
- Abstract(参考訳): 大規模言語モデル (LLM) の推論能力を高めるために, 学習コストが高く, 広範囲なテスト時間サンプリングを行ない, 提案手法を導入する。
このアプローチは、認知的に簡単で、標準的な前向き連鎖(CoT)と相補的な"逆推論"プロセスをトリガーし、論理的誤りを減らすためのモデルの批判的思考を効果的に呼び起こします。
さらに、モデルの以前の回答を用いて検証生成プロセスを反復的に循環する逐次テスト時間スケーリング(TTS)手法であるIter-VFにVF戦略を一般化する。
様々なベンチマーク(数学的推論からコーディングやエージェントタスクまで)と様々なLSM(オープンソース1Bから最先端の商用タスクまで)にわたる広範な実験により、ランダムな答えを持つVFは計算オーバーヘッドが最小限で標準のCoTより一貫して優れており、Iter-VFは既存のTS戦略より優れていることが確認された。
関連論文リスト
- Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling [38.27469349005585]
テストタイムスケーリングは、大規模言語モデルの推論能力を高めるための強力なパラダイムである。
テストタイムのスケーリングは、冗長かつ反復的な推論トレースの生成によって本質的に非効率である。
テスト時間スケーリングを高速化する投機的復号法を評価するために設計された最初の包括的なベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-08-30T01:54:55Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。