論文の概要: Detecting RLVR Training Data via Structural Convergence of Reasoning
- arxiv url: http://arxiv.org/abs/2602.11792v1
- Date: Thu, 12 Feb 2026 10:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.764527
- Title: Detecting RLVR Training Data via Structural Convergence of Reasoning
- Title(参考訳): 推論の構造収束によるRLVRトレーニングデータの検出
- Authors: Hongbo Zhang, Yue Yang, Jianhao Yan, Guangsheng Bao, Yue Zhang, Yue Zhang,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、現代の推論モデルのトレーニングの中心である。
RLVRは特徴的な行動シグネチャを誘導することを示す。
この崩壊を定量化する単純なブラックボックス検出器であるMin-$k$NN Distanceを導入する。
- 参考スコア(独自算出の注目度): 31.260852555788205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) is central to training modern reasoning models, but the undisclosed training data raises concerns about benchmark contamination. Unlike pretraining methods, which optimize models using token-level probabilities, RLVR fine-tunes models based on reward feedback from self-generated reasoning trajectories, making conventional likelihood-based detection methods less effective. We show that RLVR induces a distinctive behavioral signature: prompts encountered during RLVR training result in more rigid and similar generations, while unseen prompts retain greater diversity. We introduce Min-$k$NN Distance, a simple black-box detector that quantifies this collapse by sampling multiple completions for a given prompt and computing the average of the $k$ smallest nearest-neighbor edit distances. Min-$k$NN Distance requires no access to the reference model or token probabilities. Experiments across multiple RLVR-trained reasoning models show that Min-$k$NN Distance reliably distinguishes RL-seen examples from unseen ones and outperforms existing membership inference and RL contamination detection baselines.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、現代的な推論モデルのトレーニングの中心であるが、未公表のトレーニングデータは、ベンチマーク汚染に関する懸念を提起する。
トークンレベルの確率を用いてモデルを最適化する事前学習法とは異なり、RLVRは自己生成推論軌道からの報酬フィードバックに基づく微調整モデルを最適化し、従来の可能性に基づく検出方法をより効果的にする。
RLVRトレーニング中に遭遇するプロンプトは、より厳格で類似した世代となり、見知らぬプロンプトはより多様性を保ちます。
Min-$k$NN Distanceは単純なブラックボックス検出器で、与えられたプロンプトの複数の完了をサンプリングし、最も近い編集距離の$k$の平均を計算することで、この崩壊を定量化する。
Min-$k$NN Distanceは参照モデルやトークンの確率へのアクセスを必要としない。
複数のRLVR学習推論モデルによる実験により、Min-$k$NN Distanceは、RL見知らぬものからRLを確実に区別し、既存のメンバシップ推論とRL汚染検出ベースラインを上回っている。
関連論文リスト
- Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning [82.91265691530351]
A$2$Dは、検証可能な報酬による強化学習の有効性を高めるための適応能力分解手法である。
まず、蒸留なしでRLVRを介して分解器を訓練し、複雑な質問を単純なサブクエストの集合に分解する。
次に、このデコンパイラを使用して、トレーニングデータセットの各質問に対するサブクエストをアノテートし、サブクエストガイダンスを用いてRLVR下での推論をトレーニングする。
論文 参考訳(メタデータ) (2026-01-31T14:48:23Z) - Aletheia: What Makes RLVR For Code Verifiers Tick? [51.371034079170435]
Reinforcement Learning from Verifiable Rewards (RLVR)を通じてトレーニングされた検証は、Large Language Model (LLM)ポストトレーニングパイプラインの顕著なフィクスチャである。
コード検証は、実行フィードバックを得るのが難しいシナリオにおいて、モデル出力を判断する上で価値があります。
本稿では,RLVRを用いた検証学習手法の構成要素を検証し,その有効性を検証した。
論文 参考訳(メタデータ) (2026-01-17T22:30:45Z) - Masked-and-Reordered Self-Supervision for Reinforcement Learning from Verifiable Rewards [13.064343544668283]
MR-RLVR(Masked-and-Reordered RLVR)を提案する。
MR-RLVRをQwen2.5-3BとDeepSeek-R1-Distill-Qwen-1.5Bで実装し,AIME24,AIME25,AMC23,MATH500で評価した。
論文 参考訳(メタデータ) (2025-11-21T18:23:04Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。