論文の概要: RLVR Datasets and Where to Find Them: Tracing Data Lineage for Better Training Data
- arxiv url: http://arxiv.org/abs/2605.26971v1
- Date: Tue, 26 May 2026 12:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.168066
- Title: RLVR Datasets and Where to Find Them: Tracing Data Lineage for Better Training Data
- Title(参考訳): RLVRデータセットとどこを見つけるか:より良いトレーニングデータのためのデータ行の追跡
- Authors: Hsiu-Yuan Huang, Weijie Liu, Chenming Tang, Sanwoo Lee, Kai Yang, Yangkun Chen, Saiyong Yang, Yunfang Wu,
- Abstract要約: Lineage-Aware Search (ATLAS)によるAtomic-source Tracingは、RLVRデータセットを彼らのアトミックソースにトレースするフレームワークである。
我々の分析によると、ほとんどのRLVRデータセットは、共有された上流ソースの小さなセットの変種であり、真に新しいデータはほとんどなく、多くのデータ汚染リスクに直面している。
本稿では,学習信号が集中した非汚染学習データセットをキュレートするための指針として,SCA(Source-level Counterfactual Attribution)を提案する。
- 参考スコア(独自算出の注目度): 15.904355053647913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of Reinforcement Learning from Verifiable Rewards (RLVR) datasets has exacerbated provenance collapse due to unclear lineage among existing datasets. To bridge this fragmented RLVR data landscape, we propose Atomic-source Tracing via Lineage-Aware Search (ATLAS), a systematic framework for tracing RLVR datasets back to their atomic sources, attributing over 99.7% of 1.45M instances to 20 atomic sources. Our analysis reveals that most RLVR datasets are variants of a small set of shared upstream sources, with few introducing genuinely new data, and many facing data contamination risks. These findings naturally motivate us to curate a new RLVR dataset, DAPO++, and to benchmark existing datasets from a lineage-aware perspective. To this end, we propose Source-level Counterfactual Attribution (SCA) as a guiding principle to curate a decontaminated training dataset with concentrated learning signals. Essentially, SCA measures a sample's marginal utility by comparing per-atomic-source RL checkpoints against a shared base model. Building upon these attribution signals, we further design a composite dataset quality score Q that strongly correlates with downstream RLVR performance. Experiments on Qwen3 series models verify that DAPO++ consistently improves performance on held-out benchmarks, while Q reliably predicts downstream RLVR training effectiveness. Our code and data is available at https://github.com/Celine-hxy/ATLAS.
- Abstract(参考訳): 検証リワード(RLVR)データセットからの強化学習(Reinforcement Learning)の拡散は、既存のデータセットの間に不明瞭な系統があるため、成果の崩壊を悪化させた。
この断片化されたRLVRデータランドスケープをブリッジするために、Lineage-Aware Search (ATLAS)を介してAtomic-source Tracingを提案する。
我々の分析によると、ほとんどのRLVRデータセットは、共有上流ソースの小さなセットの変種であり、真に新しいデータの導入はほとんどなく、多くのデータ汚染リスクに直面している。
これらの発見は自然に、新しいRLVRデータセットであるDAPO++をキュレートし、系統認識の観点から既存のデータセットをベンチマークする動機となります。
そこで本研究では,学習信号の集中化による非汚染学習データセットのキュレートの指針として,SCA(Source-level Counterfactual Attribution)を提案する。
本質的には、SCAは、サンプルの限界ユーティリティを、共有ベースモデルと比較することで、アトミックソース毎のRLチェックポイントを比較します。
これらの属性信号に基づいて、下流RLVR性能と強く相関する合成データセット品質スコアQを更に設計する。
Qwen3シリーズモデルの実験では、DAPO++はホールドアウトベンチマークのパフォーマンスを一貫して改善し、Qは下流RLVRトレーニングの有効性を確実に予測する。
私たちのコードとデータはhttps://github.com/Celine-hxy/ATLAS.comで公開されています。
関連論文リスト
- On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR [51.935533482549545]
RLVRはトレーニングデータセットに過度に適合する暗黙の報酬を示す可能性がある。
モデルは、トレーニングプロセス中に報酬が比較的低いままであっても、テストセット上で満足なパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2026-05-07T16:30:28Z) - OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。
我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。
我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-26T06:28:56Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。
オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。
本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。
我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。
提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文 参考訳(メタデータ) (2024-09-21T15:50:59Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Replication: Contrastive Learning and Data Augmentation in Traffic
Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。
元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文 参考訳(メタデータ) (2023-09-18T12:55:09Z) - ORL-AUDITOR: Dataset Auditing in Offline Deep Reinforcement Learning [42.87245000172943]
オフラインの深層強化学習(オフラインDRL)は、事前にコンパイルされたデータセットのモデルをトレーニングするために頻繁に使用される。
オフラインDRLシナリオを対象とした最初のトラジェクトリレベルのデータセット監査機構であるORL-AUDITORを提案する。
複数のオフラインDRLモデルとタスクに対する実験により、監査精度が95%以上、偽陽性率が2.88%未満であるORL-AUDITORの有効性が示された。
論文 参考訳(メタデータ) (2023-09-06T15:28:43Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。