論文の概要: Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.09259v1
- Date: Fri, 10 Oct 2025 10:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.785738
- Title: Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
- Title(参考訳): 大規模言語モデルの強化学習によるデータ汚染の検出
- Authors: Yongding Tao, Tian Wang, Yihong Dong, Huanyu Liu, Kechi Zhang, Xiaolong Hu, Ge Li,
- Abstract要約: データ汚染は大規模言語モデル(LLM)の信頼性評価に重大な脅威をもたらす
この問題は、ベンチマークサンプルが必然的にトレーニングセットに現れ、報告されたパフォーマンスの有効性を損なうことになる。
本稿では,RLポストトレーニングのための特殊汚染検出手法として,自己批判を提案する。
- 参考スコア(独自算出の注目度): 30.267708813420587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data contamination poses a significant threat to the reliable evaluation of Large Language Models (LLMs). This issue arises when benchmark samples may inadvertently appear in training sets, compromising the validity of reported performance. While detection methods have been developed for the pre-training and Supervised Fine-Tuning stages, a critical research gap exists for the increasingly significant phase of Reinforcement Learning (RL) post-training. As RL post-training becomes pivotal for advancing LLM reasoning, the absence of specialized contamination detection methods in this paradigm presents a critical vulnerability. To address this, we conduct the first systematic study of data detection within RL post-training scenario and propose Self-Critique. Our method is motivated by a key observation: after RL phase, the output entropy distribution of LLMs tends to collapse into highly specific and sparse modes. Self-Critique probes for the underlying policy collapse, i.e., the model's convergence to a narrow reasoning path, which causes this entropy reduction. To facilitate this research, we also introduce RL-MIA, a benchmark constructed to simulate this specific contamination scenario. Extensive experiments show that Self-Critique significantly outperforms baseline methods across multiple models and contamination tasks, achieving an AUC improvement of up to 30%. Whereas existing methods are close to a random guess for RL-phase contamination, our method makes detection possible.
- Abstract(参考訳): データ汚染は、Large Language Models (LLM) の信頼性評価に重大な脅威をもたらす。
この問題は、ベンチマークサンプルが必然的にトレーニングセットに現れ、報告されたパフォーマンスの有効性を損なうことになる。
プレトレーニングおよび修正ファインチューニングの段階では検出方法が開発されているが、強化学習(RL)のポストトレーニングにおいて重要な段階において重要な研究ギャップが存在する。
LLM推論を推し進める上でRLポストトレーニングが重要となるにつれ、このパラダイムにおける特別な汚染検出方法が欠如していることは重大な脆弱性を示す。
そこで本研究では,RL後学習シナリオにおけるデータ検出に関する最初の体系的研究を行い,自己批判を提案する。
RL相の後, LLMの出力エントロピー分布は, 非常に特異かつスパースなモードに崩壊する傾向にある。
自己批判は、基礎となる政策崩壊、すなわちモデルが狭い推論経路への収束を探索し、このエントロピーの減少を引き起こす。
本稿では,この汚染シナリオをシミュレートするベンチマークRL-MIAについても紹介する。
大規模な実験により、Self-Critiqueは複数のモデルと汚染タスクでベースライン法を著しく上回り、AUCの改善を最大30%達成した。
既存の手法はRL相汚染のランダムな推定に近いが,本手法は検出を可能にする。
関連論文リスト
- On The Fragility of Benchmark Contamination Detection in Reasoning Models [20.455365567122985]
LRMのリーダーボードは、評価を競合に転換し、開発者がベンチマークスイート上で直接最適化するインセンティブを与えている。
より高いランキングを達成するためのショートカットは、評価ベンチマークをトレーニングデータに組み込むことで、ベンチマーク汚染と呼ばれる膨らませたパフォーマンスを得る。
LRMに対する汚染検出の回避は極めて容易であることが判明した。
論文 参考訳(メタデータ) (2025-09-30T21:40:54Z) - Score-based Membership Inference on Diffusion Models [3.742113529511043]
拡散モデルに対するメンバーシップ推論攻撃(MIA)は、プライバシーの懸念が強まっている。
本稿では,拡散モデルが近似することを学習する予測ノイズベクトルに着目し,スコアベースMIAの理論的,実証的研究を行う。
提案手法は, トレーニングセットに近づき, メンバシップが明らかになるような, 近隣のトレーニングサンプルのカーネル重み付き局所平均に対して, 期待されたデノイザ出力が向けられることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:28:55Z) - Mirage or Method? How Model-Task Alignment Induces Divergent RL Conclusions [22.83151273022573]
反直感現象は、大きな言語モデル(LLM)で報告されている
RL観測を区別する重要な要因を同定する。事前学習されたモデルが既に強力なModel-Taskアライメントを示すかどうか。
この結果から, 標準RLトレーニングは, セッティング全体にわたって一貫して頑健でありながら, モデルとタスクがすでに強いモデルとタスクのアライメントを示す場合にのみ, 直感的な結果が生じることが示唆された。
論文 参考訳(メタデータ) (2025-08-28T20:02:10Z) - Training-Free Stein Diffusion Guidance: Posterior Correction for Sampling Beyond High-Density Regions [46.59494117137471]
自由拡散誘導の訓練は、追加の訓練なしに既成の分類器を活用する柔軟な方法を提供する。
本稿では,SOC を対象とする新たなトレーニングフリーフレームワークである Stein Diffusion Guidance (SDG) を紹介する。
分子低密度サンプリングタスクの実験は、SDGが標準のトレーニングフリーガイダンス手法を一貫して上回っていることを示唆している。
論文 参考訳(メタデータ) (2025-07-07T21:14:27Z) - RN-F: A Novel Approach for Mitigating Contaminated Data in Large Language Models [0.8739101659113157]
Residual-Noise Fingerprinting (RN-F)は、大規模言語モデル(LLM)における汚染データを検出するための新しいフレームワークである。
RN-Fは、追加の浮動小数点演算を導入することなく残留信号パターンを活用する、単一パスで勾配のない検出方法である。
RN-Fは、既存の最先端手法を一貫して上回り、汚染検出指標の最大10.5%のパフォーマンス向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-19T15:32:49Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Reconstructing Graph Diffusion History from a Single Snapshot [87.20550495678907]
A single SnapsHot (DASH) から拡散履歴を再構築するための新しいバリセンターの定式化を提案する。
本研究では,拡散パラメータ推定のNP硬度により,拡散パラメータの推定誤差が避けられないことを証明する。
また、DITTO(Diffusion hitting Times with Optimal proposal)という効果的な解法も開発している。
論文 参考訳(メタデータ) (2023-06-01T09:39:32Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。