論文の概要: Smart Picks in the Dark: Towards Efficient RLVR for Reasoning via Tracing Metacognitive Pivots
- arxiv url: http://arxiv.org/abs/2606.04503v1
- Date: Wed, 03 Jun 2026 06:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.587307
- Title: Smart Picks in the Dark: Towards Efficient RLVR for Reasoning via Tracing Metacognitive Pivots
- Title(参考訳): 暗闇の中でのスマートピック:メタ認知球の追跡による推論のための効率的なRLVRを目指して
- Authors: Guangcheng Zhu, Shenzhi Yang, Haobo Wang, Xing Zheng, Yingfan MA, Xuening Feng, Zhongqi Chen, Bowen Song, Weiqiang Wang, Gang Chen,
- Abstract要約: RLVRの「暗黒のピック」設定は、事前の監督なしに、トレーニングに最も有益でアノテーションに相応しいラベルなしサンプルを選択することを目的としている。
本稿では,3方向データトリアージフレームワークであるPivotTraceを提案する。
- 参考スコア(独自算出の注目度): 29.141492387722963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has greatly advanced large reasoning models (LRMs), but it requires timely training on a huge fully-annotated dataset. To this end, data-efficient RLVR methods have been widely studied from two perspectives: (i) data selection methods identify a small subset of "golden" samples that yield near-full-data performance, but they rely on a pre-existing pool of labeled data. (ii) unsupervised RLVR methods train the model using its own internal supervision signals on large-scale unlabeled data, yet they exhibit suboptimal performance. Accordingly, we investigate the "pick in the dark" setup for RLVR, which aims to select, without prior supervision, unlabeled samples that are most beneficial for training and worthy of annotation. Through systematic analysis, we demonstrate that smart picks hinge on a well-calibrated uncertainty estimator to enable strategic partitioning of data for adaptive training regimes. Building on this insight, we propose PivotTrace, a three-way data triage framework that leverages attention dynamics to trace metacognitive pivots during reasoning. By precisely quantifying uncertainty through pivot density, PivotTrace achieves automated data routing to synergistically maximize both annotation and training efficiency. Empirically, PivotTrace surpasses the fully supervised LRM with only 29.3% annotated samples and 2.75 faster convergence.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、非常に高度な大推論モデル(LRM)を持っているが、巨大な完全注釈付きデータセットでタイムリーにトレーニングする必要がある。
この目的のために、データ効率のよいRLVR法は2つの観点から広く研究されている。
i) データ選択手法は, ほぼ完全なデータ性能を示す「ゴールド」サンプルの小さなサブセットを識別するが, ラベル付きデータのプールに依存している。
(II)RLVR法は、大規模未ラベルデータに基づいて、内部監視信号を用いてモデルを訓練するが、それらは準最適性能を示す。
そこで本研究では、事前の監督なしに、トレーニングに最も有益でアノテーションに相応しいラベル付きサンプルを選択することを目的としたRLVRの「暗黒のピック」設定について検討する。
系統的な分析を通して、適応的な訓練体制のためのデータの戦略的分割を可能にするための、よく校正された不確実性推定器上のスマートピックヒンジを実証する。
この知見に基づいて,三方向データトリアージフレームワークであるPivotTraceを提案する。
PivotTraceは、ピボット密度による不確実性を正確に定量化することにより、自動データルーティングを実現し、アノテーションとトレーニング効率の両方を相乗的に最大化する。
PivotTrace は 29.3% の注釈付きサンプルと 2.75 の高速収束で完全に制御された LRM を超えている。
関連論文リスト
- GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling [29.20321049470364]
検証可能な報酬(RLVR)による強化学習はLLM推論を著しく向上させる。
標準的な教師なしスケーリングは高いアノテーションコストによって妨げられ、教師なしの代替手段は深刻なモデル崩壊に悩まされる。
最近の半教師付きRLVR法は、ラベルのないデータをガイドする小さなラベル付きセットを使用してこの問題に対処し、トレーニングの有効性とアノテーションコストの間の有望なトレードオフを実現する。
ラベル付きデータに対するグローバルな特徴をモデル化したGeoMinを提案する。
論文 参考訳(メタデータ) (2026-06-03T06:47:50Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。
我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。
我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-26T06:28:56Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - Semi-Supervised Offline Reinforcement Learning with Action-Free
Trajectories [37.14064734165109]
自然エージェントは、サイズ、品質、種類の異なる複数のデータソースから学習することができる。
オフライン強化学習(RL)の文脈でこれを研究し、実際に動機付けされた半教師付き環境を導入する。
論文 参考訳(メタデータ) (2022-10-12T18:22:23Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。