論文の概要: Single-Rollout Hidden-State Dynamics for Training-Free RLVR Data Selection
- arxiv url: http://arxiv.org/abs/2605.28631v1
- Date: Wed, 27 May 2026 15:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.182213
- Title: Single-Rollout Hidden-State Dynamics for Training-Free RLVR Data Selection
- Title(参考訳): トレーニング不要なRLVRデータ選択のためのシングルロールハイデン状態ダイナミクス
- Authors: Jianghao Wu, Jianfei Cai, Weiqiang Wang, Jin Ye, Daniel F. Schmidt, Yasmeen George,
- Abstract要約: 我々は、RLVRデータ選択を、任意のRLトレーニングの前に選択を行なわなければならない設定で研究する。
推論時隠れ状態ダイナミクスのみに基づく一発学習自由セレクタShiFTを提案する。
- 参考スコア(独自算出の注目度): 31.03997249039617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) can yield large reasoning gains from very few training instances, yet its strong sensitivity to which instances are used makes data selection a central bottleneck. Most existing selection pipelines rely on training-time optimization signals and/or require access to verifiable rewards or ground-truth answers over large candidate pools, which is costly and often infeasible in specialized domains. We study RLVR data selection in a setting where selection must be performed before any RL training and without labels or reward evaluation on the full pool. We propose SHIFT, a one-shot, training-free selector based solely on inference-time hidden-state dynamics. For each candidate instance, SHIFT runs a single deterministic reasoning rollout and computes a reasoning-induced representation shift (RIRS) as the start-to-end hidden-state delta. SHIFT uses the RIRS magnitude as a lightweight proxy for instance utility and enforces coverage via a quality-weighted farthest-first CoreSet procedure in an RIRS-augmented feature space, producing compact subsets that scale to large unlabeled pools. Across mathematical reasoning and medical QA benchmarks under ultra-low budgets, SHIFT consistently outperforms training-free diversity and difficulty/uncertainty baselines, improving both in-domain accuracy and transfer to harder evaluation settings. Ablations show that RIRS-based coverage and quality-weighting contribute complementary gains, and analyses indicate that RIRS is not explained by simple input/output length statistics. Code is available at github.com/JianghaoWu/SHIFT.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、ごく少数のトレーニングインスタンスから大きな推論ゲインを得ることができるが、どのインスタンスが使用されるかの強い感度によって、データの選択が中心的なボトルネックになる。
既存の選択パイプラインの多くは、トレーニング時の最適化信号や/または、検証可能な報酬や、大きな候補プールに対する地味な答えへのアクセスに依存している。
我々は、RLVRデータ選択を、RLトレーニングの前に、そしてフルプールにおけるラベルや報酬評価なしで、選択を行なわなければならないような環境で研究する。
推論時隠れ状態ダイナミクスのみに基づく一発学習自由セレクタShiFTを提案する。
それぞれの候補インスタンスに対して、Shiftは単一の決定論的推論ロールアウトを実行し、推論誘発表現シフト(RIRS)を、開始から終了までの隠れ状態デルタとして計算する。
ShiFTはRIRSグレードを軽量なプロキシとして使用し、RIRSの拡張された機能空間において、品質の高い最上位のCoreSetプロシージャを通じてカバレッジを強制し、大きなラベルのないプールにスケールするコンパクトなサブセットを生成する。
超低予算下での数学的推論と医学的QAベンチマークの範囲で、Shiftはトレーニングなしの多様性と困難/不確実性のベースラインを一貫して上回り、ドメイン内の精度とより厳しい評価設定への転送を改善している。
アブレーションはRIRSをベースとしたカバレッジと品質重み付けが相補的な利得に寄与していることを示し、分析はRIRSが単純な入力/出力長統計によって説明されないことを示している。
コードはgithub.com/JianghaoWu/SHIFTで入手できる。
関連論文リスト
- Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance [117.2119290254454]
実演誘導型RLVRアルゴリズムであるFESTを提案する。
SFTデータセットからランダムに選択された128のデモで、魅力的な結果が得られる。
この成功のためには、教師付き信号、オン・ポリケーション信号、および数ショットのSFTデータセット上の減衰重みの3つのコンポーネントが不可欠であることがわかった。
論文 参考訳(メタデータ) (2026-05-14T16:12:30Z) - Ada-RS: Adaptive Rejection Sampling for Selective Thinking [8.760287445955045]
大規模言語モデル(LLM)は、コストとレイテンシに敏感な設定でますますデプロイされている。
ツールを用いたLCMの選択的思考と適応型リジェクションサンプリング(Ada-RS)の導入について検討する。
Ada-RSは、適応的な長さの報酬で複数のサンプリング完了をスコアし、高い回帰候補のみを保持するために拒絶サンプリングを適用する。
論文 参考訳(メタデータ) (2026-02-23T05:20:15Z) - Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers [55.33468902405567]
本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。
ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-09T03:42:16Z) - Learn More with Less: Uncertainty Consistency Guided Query Selection for RLVR [18.494852448006462]
既存のRLVRアルゴリズムでは、大量のクエリ予算が必要で、アノテーションはコストがかかる。
我々は、RLVRにアクティブラーニング(AL)を導入し、より少ないがより情報的なクエリが類似または優れたパフォーマンスをもたらすかどうかを調査する。
実験の結果,本手法は乱数および古典的ALベースラインを一貫して上回り,データの30%をトレーニングしながら全データセットのパフォーマンスを達成できた。
論文 参考訳(メタデータ) (2026-01-30T05:41:55Z) - Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning [49.04912820721943]
Supervised Fine-tuning (SFT) は計算コストが高く、時にはオーバーフィットやバイアス増幅に悩まされる。
本研究は、トレーニングプロセス中にサンプルを動的にスコア付け、フィルタリングするオンラインバッチ選択ファミリについて研究する。
SFTにおける効率的なオンラインバッチ選択のためのフレームワークである textbfUDS (Utility-Diversity Sampling) を開発した。
論文 参考訳(メタデータ) (2025-10-19T15:32:01Z) - Soft Random Sampling: A Theoretical and Empirical Analysis [59.719035355483875]
ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。
それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。
実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
論文 参考訳(メタデータ) (2023-11-21T17:03:21Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。