論文の概要: Before the Model Learns the Bug:Fuzzing RLVR Verifiers
- arxiv url: http://arxiv.org/abs/2606.01066v1
- Date: Sun, 31 May 2026 07:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.187576
- Title: Before the Model Learns the Bug:Fuzzing RLVR Verifiers
- Title(参考訳): モデルがバグを学習する前に:Fzzing RLVR Verifiers
- Authors: Jaideep Ray,
- Abstract要約: 報酬による強化学習は、人間の嗜好ラベルを実行可能な報酬関数に置き換える。
この障害モードを,逆数補完を生成する軽量な検証ファジィングフレームワークを用いて検討し,バグや厳密な参照検証,ログのペア決定,偽陽性,偽陰性,不一致,エクスプロイト,不確実性などの指標を報告する。
- 参考スコア(独自算出の注目度): 0.5482532589225553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) replaces human preference labels with executable reward functions such as math answer checkers, JSON tool-call validators, and code unit-test harnesses. That makes the reward partly a software artifact: if the verifier is wrong, optimization can learn the bug. We study this failure mode with a lightweight verifier-fuzzing framework that generates adversarial completions, compares buggy and stricter reference verifiers, logs paired decisions, and reports false-positive, false-negative, disagreement, exploit, and uncertainty metrics.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、人間の好みラベルを数学回答チェッカー、JSONツールコールバリデータ、コード単体テストハーネスなどの実行可能な報酬関数に置き換える。
検証が間違っていれば、最適化はバグを学ぶことができます。
この障害モードを,逆数補完を生成する軽量な検証ファジィングフレームワークを用いて検討し,バグや厳密な参照検証,ログのペア決定,偽陽性,偽陰性,不一致,エクスプロイト,不確実性などの指標を報告する。
関連論文リスト
- Improving Small Language Models for Code Generation with Reinforcement Learning from Verification Feedback [0.0]
検証可能な(RLVR)言語モデルを用いた強化学習は、単体テスト結果を用いて訓練する。
MBPPベンチマークを用いたPythonコード生成のためのRLVRの実証的研究を行った。
その結果、コード生成におけるRLVRの有効性は、設計と最適化に非常に敏感であることがわかった。
論文 参考訳(メタデータ) (2026-05-28T18:50:00Z) - Soft-SVeRL: Self-Verified Reinforcement Learning with Soft Rewards [24.040621624203823]
Reinforcement Learning from Verifiable Rewards (RLVR)は、数学やコードなどの分野における言語モデルを改善している。
本稿では,分解された学習信号から強化学習を行うフレームワークであるSoft-RLVRを紹介する。
自己検証は、過度に許容される自己判断からインフレーションを報いる傾向があり、この崩壊を防ぐために明確な安定化が必要であることを示す。
論文 参考訳(メタデータ) (2026-05-27T14:50:53Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense [36.71358559780692]
HEROは、検証者信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
論文 参考訳(メタデータ) (2025-10-08T17:09:41Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。