Fugu-MT 論文翻訳(概要): SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

論文の概要: SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

arxiv url: http://arxiv.org/abs/2504.19162v1
Date: Sun, 27 Apr 2025 08:45:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:54.158157
Title: SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning
Title（参考訳）: SPC: LLM推論のための対戦ゲームによるセルフプレイ批判の展開
Authors: Jiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong,
Abstract要約: セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。 SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
参考スコア（独自算出の注目度）: 99.645427839457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating the step-by-step reliability of large language model (LLM) reasoning, such as Chain-of-Thought, remains challenging due to the difficulty and cost of obtaining high-quality step-level supervision. In this paper, we introduce Self-Play Critic (SPC), a novel approach where a critic model evolves its ability to assess reasoning steps through adversarial self-play games, eliminating the need for manual step-level annotation. SPC involves fine-tuning two copies of a base model to play two roles, namely a "sneaky generator" that deliberately produces erroneous steps designed to be difficult to detect, and a "critic" that analyzes the correctness of reasoning steps. These two models engage in an adversarial game in which the generator aims to fool the critic, while the critic model seeks to identify the generator's errors. Using reinforcement learning based on the game outcomes, the models iteratively improve; the winner of each confrontation receives a positive reward and the loser receives a negative reward, driving continuous self-evolution. Experiments on three reasoning process benchmarks (ProcessBench, PRM800K, DeltaBench) demonstrate that our SPC progressively enhances its error detection capabilities (e.g., accuracy increases from 70.8% to 77.7% on ProcessBench) and surpasses strong baselines, including distilled R1 model. Furthermore, applying SPC to guide the test-time search of diverse LLMs significantly improves their mathematical reasoning performance on MATH500 and AIME2024, outperforming state-of-the-art process reward models.
Abstract（参考訳）: Chain-of-Thoughtのような大規模言語モデル(LLM)推論のステップバイステップの信頼性を評価することは、高品質なステップレベルの監視を得ることの難しさとコストのため、依然として困難である。本稿では、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させ、手動のステップレベルのアノテーションを不要とする、新たなアプローチであるセルフプレイ批判(SPC)を紹介する。 SPCは、ベースモデルの2つのコピーを微調整して2つの役割を演じる。すなわち、検出が難しいように設計された誤ったステップを意図的に生成する「スニーキージェネレータ」と、推論ステップの正しさを分析する「批判的」である。これら2つのモデルは、ジェネレータが批評家を騙そうとする対角ゲームに従事し、批評家モデルはジェネレータのエラーを特定しようとする。各対戦の勝者は肯定的な報酬を受け取り、敗者は負の報酬を受け取り、連続的な自己進化を駆動する。 3つの推論プロセスベンチマーク(ProcessBench, PRM800K, DeltaBench)の実験は、我々のSPCが徐々にエラー検出能力(ProcessBenchの精度は70.8%から77.7%に向上し、蒸留R1モデルを含む強いベースラインを超えることを示した。さらに,多種多様なLSMの試験時間探索にSPCを適用することにより,MATH500やAIME2024の数学的推論性能が向上し,最先端のプロセス報酬モデルよりも優れていた。

関連論文リスト

Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.26461635308796]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文参考訳（メタデータ） (2026-02-04T15:24:52Z)
Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing [70.35701681177655]
自己改善は、大きな視覚言語モデルの推論能力を向上するための主流パラダイムとして現れてきた。本研究では,探索学習による自己改善プロセスにおいて,頭部再バランスを実現するための4つの効率的な戦略を提案する。我々の手法は視覚的推論能力を常に改善し、バニラ自己改善を平均3.86ポイント上回る。
論文参考訳（メタデータ） (2025-10-30T13:26:58Z)
Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文参考訳（メタデータ） (2025-10-20T07:53:51Z)
GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning [34.42899160708635]
自動プロセス監視のための木誘導・忠実度対応フレームワークであるGroundedPRMを紹介する。グラウンドドPRMは40Kの自動的にラベル付けされたサンプルでトレーニングされており、自動ラベル付けされた監視で訓練された最高のパフォーマンスのPRMが使用するデータの10%しか使用できない。 ProcessBenchの平均パフォーマンスは最大で26%向上している。
論文参考訳（メタデータ） (2025-10-16T17:54:07Z)
LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.71684530652942]
LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。
論文参考訳（メタデータ） (2025-08-31T03:08:02Z)
Pentest-R1: Towards Autonomous Penetration Testing Reasoning Optimized via Two-Stage Reinforcement Learning [12.155067662797281]
Pentest-R1は、侵入テストタスクの推論機能を最適化するために設計されたフレームワークである。環境フィードバックから直接学習し、堅牢なエラー自己補正と適応戦略を開発する。 AutoPenBenchでは、Pentest-R1は24.2%の成功率に達し、ほとんどの最先端モデルを上回っている。
論文参考訳（メタデータ） (2025-08-10T15:14:05Z)
RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback [57.967762383794806]
RefCriticは、二重ルールベースの報酬による強化学習に基づく、長鎖の批判モジュールである。我々は5つのベンチマークでQwen2.5-14BとDeepSeek-R1-Distill-Qwen-14BのRefCriticを評価した。
論文参考訳（メタデータ） (2025-07-20T16:19:51Z)
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning [27.20778530252474]
SPIRALは、モデルをマルチターン、ゼロサムゲームで学習し、自身のバージョンを継続的に改善するセルフプレイフレームワークである。 SPIRALを用いることで、ゼロサムゲーム上でのセルフプレイは、広く移動する推論能力を生み出す。分析により, この伝達は, 系統的分解, 期待値計算, ケース・バイ・ケース分析という3つの認知的パターンを通じて起こることが明らかとなった。
論文参考訳（メタデータ） (2025-06-30T17:58:13Z)
Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。ガス灯消火プロンプトによる精度低下が認められた。 GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文参考訳（メタデータ） (2025-06-11T12:52:25Z)
Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文参考訳（メタデータ） (2025-06-07T21:23:00Z)
T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文参考訳（メタデータ） (2025-05-23T13:44:59Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-08T04:39:51Z)
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models [28.74956741932006]
PRMベンチ(PRM Bench)は, PRMの微細な誤差検出機能を評価するための, プロセスレベルのベンチマークである。 PRMBenchは、6,216の慎重に設計された問題と83,456のステップレベルラベルで構成され、複数の次元にわたるモデルを評価する。
論文参考訳（メタデータ） (2025-01-06T16:31:45Z)
Self-Generated Critiques Boost Reward Modeling for Language Models [57.60881438647227]
Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
論文参考訳（メタデータ） (2024-11-25T18:28:26Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Self-rationalization improves LLM as a fine-grained judge [21.917301609125417]
本稿では,判断モデルの合理性を改善する反復的プロセスである自己帰納化を導入する。自己合理化は、モデルが同じ入力に対して合理性を持つ複数の判断を生成させることで機能する。我々のモデルは、SFTで訓練されたモデルと比較して平均62%の利益率で、より高い品質の合理性を生み出すことを学習している。
論文参考訳（メタデータ） (2024-10-07T21:05:53Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。