Fugu-MT 論文翻訳(概要): PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier

論文の概要: PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier

arxiv url: http://arxiv.org/abs/2506.10406v1
Date: Thu, 12 Jun 2025 06:59:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.615586
Title: PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier
Title（参考訳）: PAG: ジェネレーティブ検証による多層強化LDM自己補正
Authors: Yuhua Jiang, Yuwen Xiong, Yufeng Yuan, Chao Xin, Wenyuan Xu, Yu Yue, Qianchuan Zhao, Lin Yan,
Abstract要約: Policy as Generative Verifier (PAG) は、政策と検証役を交互に交互に行うことで、大規模言語モデルに自己修正の権限を与えるフレームワークである。モデル崩壊を緩和し、推論能力と検証能力の両方を共同で強化する。
参考スコア（独自算出の注目度）: 18.771754895027616
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities in complex reasoning tasks, yet they still struggle to reliably verify the correctness of their own outputs. Existing solutions to this verification challenge often depend on separate verifier models or require multi-stage self-correction training pipelines, which limit scalability. In this paper, we propose Policy as Generative Verifier (PAG), a simple and effective framework that empowers LLMs to self-correct by alternating between policy and verifier roles within a unified multi-turn reinforcement learning (RL) paradigm. Distinct from prior approaches that always generate a second attempt regardless of model confidence, PAG introduces a selective revision mechanism: the model revises its answer only when its own generative verification step detects an error. This verify-then-revise workflow not only alleviates model collapse but also jointly enhances both reasoning and verification abilities. Extensive experiments across diverse reasoning benchmarks highlight PAG's dual advancements: as a policy, it enhances direct generation and self-correction accuracy; as a verifier, its self-verification outperforms self-consistency.
Abstract（参考訳）: 大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な能力を示してきたが、それでも自分たちの出力の正確さを確実に検証するのに苦労している。この検証課題に対する既存のソリューションは、しばしば別々の検証モデルに依存するか、スケーラビリティを制限する多段階の自己補正トレーニングパイプラインを必要とする。本稿では、多ターン強化学習(RL)パラダイムにおいて、ポリシーと検証役を交互に交互に行うことでLCMを自己修正する、シンプルで効果的なフレームワークであるPAG(Policy as Generative Verifier)を提案する。モデル信頼性に関わらず、常に第2の試行を生成する以前のアプローチとは違い、PAGは選択的なリビジョンメカニズムを導入している。この検証-修正ワークフローは、モデル崩壊を緩和するだけでなく、推論と検証能力の両方を共同で強化する。様々な推論ベンチマークにわたる大規模な実験では、PAGの二重進歩が強調され、ポリシーとして、直接生成と自己補正の精度が向上し、検証者として、自己検証が自己整合性を上回っている。

関連論文リスト

GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning [12.724393910603299]
GM-PRM(Generative Multimodal Process Reward Model)を紹介する。単純なスカラースコアの代わりに、GM-PRMは各推論ステップのきめ細かい解釈可能な分析を提供する。 GM-PRMは複数のマルチモーダル数学ベンチマークにおいて最先端の計算結果が得られることを示す。
論文参考訳（メタデータ） (2025-08-06T05:10:29Z)
Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文参考訳（メタデータ） (2025-06-07T21:23:00Z)
Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文参考訳（メタデータ） (2025-05-19T17:59:31Z)
AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文参考訳（メタデータ） (2025-04-21T04:56:47Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-02-20T13:50:02Z)
Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。本稿では,自己改善のための数学的定式化について述べる。また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文参考訳（メタデータ） (2024-12-03T18:47:26Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。 SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文参考訳（メタデータ） (2024-09-19T17:16:21Z)
Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model Reasoning [11.765298236504155]
Derailer-Rerailerは推論精度と計算効率のバランスをとる新しいフレームワークである。提案手法は,従来の検証手法に比べて2～3倍の効率を維持しつつ,大幅な精度向上(8～11%)を実現している。
論文参考訳（メタデータ） (2024-08-25T21:20:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。