Fugu-MT 論文翻訳(概要): VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

論文の概要: VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

arxiv url: http://arxiv.org/abs/2506.09942v1
Date: Wed, 11 Jun 2025 17:10:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:03.157864
Title: VerIF: Verification Engineering for Reinforcement Learning in Instruction Following
Title（参考訳）: VerIF:強化学習の検証工学
Authors: Hao Peng, Yunjia Qi, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li,
Abstract要約: 検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
参考スコア（独自算出の注目度）: 55.60192044049083
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a key technique for enhancing large language models (LLMs), with verification engineering playing a central role. However, best practices for RL in instruction following remain underexplored. In this work, we explore the verification challenge in RL for instruction following and propose VerIF, a verification method that combines rule-based code verification with LLM-based verification from a large reasoning model (e.g., QwQ-32B). To support this approach, we construct a high-quality instruction-following dataset, VerInstruct, containing approximately 22,000 instances with associated verification signals. We apply RL training with VerIF to two models, achieving significant improvements across several representative instruction-following benchmarks. The trained models reach state-of-the-art performance among models of comparable size and generalize well to unseen constraints. We further observe that their general capabilities remain unaffected, suggesting that RL with VerIF can be integrated into existing RL recipes to enhance overall model performance. We have released our datasets, codes, and models to facilitate future research at https://github.com/THU-KEG/VerIF.
Abstract（参考訳）: 検証可能な報奨(RLVR)による強化学習は,検証工学が中心となる大規模言語モデル(LLM)の強化の鍵となる技術となっている。しかし、後続の指導におけるRLのベストプラクティスは未解明のままである。本研究では,ルールベースのコード検証とLLMに基づく大規模推論モデル(QwQ-32Bなど)を併用した検証手法であるVerIFを提案する。このアプローチを支援するために,約22,000のインスタンスと関連する検証信号を含む高品質な命令追従データセットVerInstructを構築した。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。トレーニングされたモデルは、同等の大きさのモデル間で最先端のパフォーマンスに達し、目に見えない制約によく当てはまる。さらに,VerIF を用いた RL を既存の RL レシピに統合することで,モデル全体の性能を向上させることが可能であることが示唆された。私たちは、https://github.com/THU-KEG/VerIF.orgで将来の研究を促進するために、データセット、コード、モデルをリリースしました。

関連論文リスト

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Reinforcing General Reasoning without Verifiers [47.72684162518086]
本稿では,応答検証を回避し,RLを用いて参照応答を生成する確率を直接最大化する検証自由手法(VeriFree)を提案する。 VeriFreeは、MMLU-Pro、GPQA、SuperGPQA、数学関連のベンチマークにまたがる広範囲な評価において、検証者ベースの手法に匹敵する。
論文参考訳（メタデータ） (2025-05-27T17:56:27Z)
SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文参考訳（メタデータ） (2025-05-25T13:28:04Z)
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models [55.39064621869925]
OpenAI o1とDeepSeek-R1は、推論の領域で素晴らしいパフォーマンスを達成した。彼らのトレーニングの重要な要素は、強化学習に検証可能な報酬を取り入れることである。既存の報酬ベンチマークでは、参照ベースの報酬システムの評価は行われていない。
論文参考訳（メタデータ） (2025-05-21T17:54:43Z)
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。本研究はRLVRの現状を批判的に考察する。現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning [24.684363928059113]
自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。 iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
論文参考訳（メタデータ） (2024-06-04T18:15:44Z)
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文参考訳（メタデータ） (2024-02-06T04:06:06Z)
Automatic Unit Test Data Generation and Actor-Critic Reinforcement Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2023-10-20T17:13:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。