論文の概要: Process Supervision via Verbal Critique Improves Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.21611v1
- Date: Thu, 23 Apr 2026 12:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.494477
- Title: Process Supervision via Verbal Critique Improves Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルの推論を改善する言語批判によるプロセススーパービジョン
- Authors: Hao-Yuan Chen,
- Abstract要約: Verbal Process Supervision (VPS) は、より強力なスーパーバイザから構造化された自然言語批判を使用して、反復的な生成-批判-再定義ループを丸い予算Rまでガイドする、トレーニング不要のフレームワークである。
VPSはGPQA Diamond、AIME 2025、LiveCodeBench V6の3つの主要な結果を得る。
これらの結果は、推論時間スケーリングの新たな軸として、批判的な粒度を確立する。
- 参考スコア(独自算出の注目度): 1.472161528588343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time scaling for LLM reasoning has focused on three axes: chain depth, sample breadth, and learned step-scorers (PRMs). We introduce a fourth axis, granularity of external verbal supervision, via Verbal Process Supervision (VPS), a training-free framework that uses structured natural-language critique from a stronger supervisor to guide an iterative generate-critique-refine loop up to a round budget R. Across GPQA Diamond, AIME 2025, and LiveCodeBench V6 (covering both closed and open models), VPS yields three key results. First, on GPQA Diamond, GPT-5.4 (High) | GPT-5.4 (Low) reaches 94.9% at R=4, surpassing the 94.1% state of the art without gradient updates. Second, on AIME 2025, VPS enables strong weak-actor rescue, boosting scores from 11.7-26.7% to 63.3-90.0% (up to +63.3 points). Third, at matched compute, VPS outperforms Reflexion by +8.5 to +12.1 points and Self-Consistency@5 by +5.0 pp (GPQA) and +8.3 pp (LiveCodeBench), isolating critique granularity as the key driver. Performance scales with the supervisor-actor capability gap (Pearson r=0.90) and degrades when errors are not linguistically expressible (e.g., code synthesis), motivating hybrid verbal-executable methods. These results establish critique granularity as a new axis of inference-time scaling.
- Abstract(参考訳): LLM推論のための推論時間スケーリングは、チェーン深さ、サンプル幅、学習ステップスコラー(PRM)の3つの軸に焦点を当てている。
第4軸, 外部言語監督の粒度(粒度)を, より強力な監督者による構造化自然言語批判を用いて, ラウンド予算までの反復的生成批判ループを導出する訓練自由フレームワークであるVerbal Process Supervision (VPS) を通じて導入する。
まず、GPQAダイアモンド上では、GPT-5.4 (High) | GPT-5.4 (Low)がR=4で94.9%に達し、勾配更新なしで94.1%を超える。
第2に、AIME 2025では、VPSは強力な弱者救助を可能にし、スコアは11.7-26.7%から63.3-90.0%(+63.3ポイントまで)まで上昇する。
第3に、マッチした計算では、VPSはリフレクションを+8.5から+12.1ポイント、Self-Consistency@5は+5.0 pp(GPQA)、+8.3 pp(LiveCodeBench)で上回り、批判的な粒度をキードライバとして分離する。
Pearson r=0.90)による性能尺度と、エラーが言語的に表現できない場合(例えば、コード合成)に劣化し、ハイブリッドな動詞実行可能なメソッドを動機付ける。
これらの結果は、推論時間スケーリングの新たな軸として、批判的な粒度を確立する。
関連論文リスト
- In-Context Environments Induce Evaluation-Awareness in Language Models [0.12691047660244334]
人間は脅威の下でより自覚的になるが、タスクに吸収されると自意識を失うことがある。
我々は,テキスト内プロンプトを最適化可能な環境として扱うブラックボックス逆最適化フレームワークを提案する。
我々は、逆最適化されたプロンプトが、これまで理解されていたよりもはるかに高い信頼性の脅威をもたらすことを示した。
論文 参考訳(メタデータ) (2026-03-04T08:22:02Z) - UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment [17.430091762374744]
主観的知覚タスクでは、このアライメントはモデルトレーニングなしで実現できることを示す。
密結合した3つの段階からなる訓練不要なポストホック・コンセプト・ブートネックパイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-23T02:24:55Z) - Once Upon an Input: Reasoning via Per-Instance Program Synthesis [19.86168542588911]
PIPS(Per-Instance Program Synthesis)は、構造的フィードバックを用いて、インスタンスレベルでプログラムを生成し、洗練する手法である。
パフォーマンスをさらに向上するため、PIPSは直接推論とプログラム合成を動的に選択する信頼度基準をインスタンス毎に組み込んでいる。
論文 参考訳(メタデータ) (2025-10-26T21:58:33Z) - Think Twice, Generate Once: Safeguarding by Progressive Self-Reflection [18.467741067831877]
本稿では,大規模言語モデルを自己監視に活用し,その出力を動的に補正する新しい推論時間手法であるプログレッシブ・セルフリフレクションを紹介する。
Llama-3.1-8B-Instructに提案手法を適用した結果,攻撃成功率は77.5%から5.9%に低下した。
提案手法はテスト時間スケーリングの手法として機能し,追加の自己回帰ラウンドによって推論オーバーヘッドのコストで安全性が向上する。
論文 参考訳(メタデータ) (2025-09-29T12:54:28Z) - Weights-Rotated Preference Optimization for Large Language Models [30.25242193651982]
本稿では,DPO から受け継いだ KL 発散量に対して,出力層ロジットを暗黙的に制約する,新しい重み付き優先度最適化 (RoPO) アルゴリズムを提案する。
我々の RoPO は AlpacaEval 2 の 3.27 点改善を実現し,トレーニング可能なパラメータの 0.015% を MT-Bench の 6.2 から 7.5 点 で上回っている。
論文 参考訳(メタデータ) (2025-08-25T03:57:17Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。