Fugu-MT 論文翻訳(概要): Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier

論文の概要: Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier

arxiv url: http://arxiv.org/abs/2505.11966v1
Date: Sat, 17 May 2025 11:41:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.963814
Title: Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier
Title（参考訳）: Solve-Detect-Verify:フレキシブル生成検証による推論時間スケーリング
Authors: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Kezhi Li, Qiang Xu,
Abstract要約: 複雑なタスクを推論する大規模言語モデル(LLM)は、本質的には解の精度と計算効率のトレードオフを伴う。本稿では,高速かつ信頼性の高い高速思考と巧妙なスロー思考の両立を図った新しい生成検証器FlexiVeを紹介する。実験によると、FlexiVeはProcessBenchの推論トレース内のエラーをピンポイントする精度が優れている。
参考スコア（独自算出の注目度）: 13.980380294971093
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Model (LLM) reasoning for complex tasks inherently involves a trade-off between solution accuracy and computational efficiency. The subsequent step of verification, while intended to improve performance, further complicates this landscape by introducing its own challenging trade-off: sophisticated Generative Reward Models (GenRMs) can be computationally prohibitive if naively integrated with LLMs at test-time, while simpler, faster methods may lack reliability. To overcome these challenges, we introduce FlexiVe, a novel generative verifier that flexibly balances computational resources between rapid, reliable fast thinking and meticulous slow thinking using a Flexible Allocation of Verification Budget strategy. We further propose the Solve-Detect-Verify pipeline, an efficient inference-time scaling framework that intelligently integrates FlexiVe, proactively identifying solution completion points to trigger targeted verification and provide focused solver feedback. Experiments show FlexiVe achieves superior accuracy in pinpointing errors within reasoning traces on ProcessBench. Furthermore, on challenging mathematical reasoning benchmarks (AIME 2024, AIME 2025, and CNMO), our full approach outperforms baselines like self-consistency in reasoning accuracy and inference efficiency. Our system offers a scalable and effective solution to enhance LLM reasoning at test time.
Abstract（参考訳）: 複雑なタスクを推論する大規模言語モデル(LLM)は、本質的には解の精度と計算効率のトレードオフを伴う。高度なジェネレーティブ・リワード・モデル (genRMs) は、テスト時に LLM と直感的に統合した場合、計算的に禁止されるが、よりシンプルで高速な手法は信頼性を欠く可能性がある。これらの課題を克服するために、フレキシブル・アロケーション・オブ・バリデーション・バッジ戦略を用いて、高速で信頼性の高い高速思考と巧妙に遅い思考の計算資源を柔軟にバランスさせる新しい生成検証器FlexiVeを紹介する。さらに、FlexiVeをインテリジェントに統合する効率的な推論時間スケーリングフレームワークであるSolve-Detect-Verifyパイプラインを提案し、ターゲット検証のトリガーとしてソリューション完了点を積極的に識別し、集中したソルバフィードバックを提供する。実験によると、FlexiVeはProcessBenchの推論トレース内のエラーをピンポイントする精度が優れている。さらに、挑戦的な数学的推論ベンチマーク(AIME 2024, AIME 2025, CNMO)では、完全なアプローチは、推論精度や推論効率において、自己整合性などのベースラインよりも優れています。我々のシステムは、テスト時にLSM推論を強化するスケーラブルで効果的なソリューションを提供する。

関連論文リスト

Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文参考訳（メタデータ） (2025-05-25T17:58:50Z)
LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [29.721108461390973]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。 PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文参考訳（メタデータ） (2025-05-25T15:17:57Z)
Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文参考訳（メタデータ） (2025-05-19T17:59:31Z)
Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T03:16:02Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling [44.11609084435251]
本稿では、並列およびシーケンシャルなテクニックを戦略的に組み合わせることで制限を克服する新しいアプローチであるSelf-Enhanced Test-Time Scaling(SETS)を紹介する。 SETSは、大規模言語モデルの固有の自己検証と自己補正機能を活用し、単一のフレームワーク内でサンプリング、検証、修正を統一する。
論文参考訳（メタデータ） (2025-01-31T17:03:16Z)
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。 FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。 FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文参考訳（メタデータ） (2024-12-12T09:01:18Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。