Fugu-MT 論文翻訳(概要): Reinforcing General Reasoning without Verifiers

論文の概要: Reinforcing General Reasoning without Verifiers

arxiv url: http://arxiv.org/abs/2505.21493v1
Date: Tue, 27 May 2025 17:56:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.851503
Title: Reinforcing General Reasoning without Verifiers
Title（参考訳）: 検証不要な一般推論の強化
Authors: Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du,
Abstract要約: 本稿では,応答検証を回避し,RLを用いて参照応答を生成する確率を直接最大化する検証自由手法(VeriFree)を提案する。 VeriFreeは、MMLU-Pro、GPQA、SuperGPQA、数学関連のベンチマークにまたがる広範囲な評価において、検証者ベースの手法に匹敵する。
参考スコア（独自算出の注目度）: 47.72684162518086
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent paradigm shift towards training large language models (LLMs) using DeepSeek-R1-Zero-style reinforcement learning (RL) on verifiable rewards has led to impressive advancements in code and mathematical reasoning. However, this methodology is limited to tasks where rule-based answer verification is possible and does not naturally extend to real-world domains such as chemistry, healthcare, engineering, law, biology, business, and economics. Current practical workarounds use an additional LLM as a model-based verifier; however, this introduces issues such as reliance on a strong verifier LLM, susceptibility to reward hacking, and the practical burden of maintaining the verifier model in memory during training. To address this and extend DeepSeek-R1-Zero-style training to general reasoning domains, we propose a verifier-free method (VeriFree) that bypasses answer verification and instead uses RL to directly maximize the probability of generating the reference answer. We compare VeriFree with verifier-based methods and demonstrate that, in addition to its significant practical benefits and reduced compute requirements, VeriFree matches and even surpasses verifier-based methods on extensive evaluations across MMLU-Pro, GPQA, SuperGPQA, and math-related benchmarks. Moreover, we provide insights into this method from multiple perspectives: as an elegant integration of training both the policy and implicit verifier in a unified model, and as a variational optimization approach. Code is available at https://github.com/sail-sg/VeriFree.
Abstract（参考訳）: DeepSeek-R1-Zero型強化学習(RL)を用いた大規模言語モデル(LLM)のトレーニングへの最近のパラダイムシフトは、コードと数学的推論の大幅な進歩につながった。しかし、この方法論はルールベースの回答検証が可能であり、化学、医療、工学、法、生物学、ビジネス、経済学といった現実世界の領域に自然に拡張できないタスクに限られている。現在の実践的な回避策では、モデルベースの検証器としてLLMが追加されているが、これは、強力な検証器のLLMへの依存、報酬のハッキングへの感受性、訓練中のメモリにおける検証モデルの維持に関する実践的な負担といった問題が発生する。この問題に対処し,DeepSeek-R1-Zeroスタイルのトレーニングを一般的な推論領域に拡張するために,回答検証を回避し,RLを用いて参照応答を生成する確率を直接最大化する検証自由な手法(VeriFree)を提案する。 We compare VeriFree with veriFree with veriifier-based method and the significant practical benefit and reduce compute requirements, VeriFree match and even over veriFree method on extensive evaluations across MMLU-Pro, GPQA, SuperGPQA, and math-related benchmarks。さらに,本手法を複数の視点から考察し,統一モデルにおけるポリシーと暗黙的検証の両方の訓練をエレガントに統合し,変分最適化アプローチとして考察する。コードはhttps://github.com/sail-sg/VeriFreeで入手できる。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。 IB対応推論最適化(IBRO)を提案する。
論文参考訳（メタデータ） (2025-07-24T13:14:25Z)
wd1: Weighted Policy Optimization for Reasoning in Diffusion Language Models [15.638885149395657]
dLLMs確率関数の抽出可能性には、各ポリシー最適化ステップにおける現在の、古い、参照ポリシーの確率を近似する必要がある。我々は、目的を重み付けされた可能性として再構成する、新しいポリシー最適化アプローチである$mathttwd1$を導入する。広く使われている推論ベンチマークの実験では、$mathttwd1$は教師付き微調整(SFT)や教師付きデータなしで、dLLMの既存のRLメソッドよりも優れていた。
論文参考訳（メタデータ） (2025-07-07T21:27:25Z)
VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文参考訳（メタデータ） (2025-06-03T07:44:31Z)
Pitfalls of Rule- and Model-based Verifiers -- A Case Study on Mathematical Reasoning [26.717777746219635]
数理推論をケーススタディとして、静的評価とRLトレーニングのシナリオの両方において、様々な検証を包括的に分析する。まず、現在のオープンソースのルールベースの検証器は、よく使われる数学的データセット間で異なる形式で表される同等の答えを認識できないことが多く、無視できない偽陰性率をもたらす。これらの制約に対処するための潜在的な解決策としてモデルベース検証について検討する。静的評価では,モデルの検証精度が著しく向上していることが示されているが,さらに解析とRLトレーニングの結果から,特定のパターンを誤分類するハッキングに非常に敏感であることが示唆された。
論文参考訳（メタデータ） (2025-05-28T10:28:41Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文参考訳（メタデータ） (2025-05-20T17:16:44Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。標準検証器と比較して、そのような生成検証器(genRM)はLLMのいくつかの利点の恩恵を受けることができる。我々は、MATHで28%$rightarrow$44.6%、MMLU抽象代数学で37.9%$rightarrow$53.5%の改善を観察する。
論文参考訳（メタデータ） (2024-08-27T17:57:45Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Value Functions are Control Barrier Functions: Verification of Safe Policies using Control Theory [46.85103495283037]
本稿では,制御理論から学習値関数への検証手法の適用方法を提案する。我々は値関数と制御障壁関数の間の関係を確立する原定理を定式化する。我々の研究は、RLベースの制御システムの汎用的でスケーラブルで検証可能な設計のための公式なフレームワークに向けた重要な一歩である。
論文参考訳（メタデータ） (2023-06-06T21:41:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。