論文の概要: GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling
- arxiv url: http://arxiv.org/abs/2606.04516v1
- Date: Wed, 03 Jun 2026 06:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.59392
- Title: GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling
- Title(参考訳): GeoMin:幾何分布モデリングによるデータ効率の良い半スーパービジョンRLVR
- Authors: Guangcheng Zhu, Shenzhi Yang, Haobo Wang, Xing Zheng, Yingfan MA, Xuening Feng, Zhongqi Chen, Kai Tang, Zhengqing Zang, Bowen Song, Weiqiang Wang, Gang Chen,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習はLLM推論を著しく向上させる。
標準的な教師なしスケーリングは高いアノテーションコストによって妨げられ、教師なしの代替手段は深刻なモデル崩壊に悩まされる。
最近の半教師付きRLVR法は、ラベルのないデータをガイドする小さなラベル付きセットを使用してこの問題に対処し、トレーニングの有効性とアノテーションコストの間の有望なトレードオフを実現する。
ラベル付きデータに対するグローバルな特徴をモデル化したGeoMinを提案する。
- 参考スコア(独自算出の注目度): 29.20321049470364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) significantly advances LLM reasoning, yet it faces a dilemma: standard supervised scaling is throttled by high annotation costs, while unsupervised alternatives suffer from severe model collapse. Recent semi-supervised RLVR methods address this by using a small labeled set to guide unlabeled data, achieving a promising trade-off between training efficacy and annotation cost. However, they suffer from a severe data-efficiency bottleneck due to the reliance on coarse performance heuristics, leaving a vast majority of valuable instances underutilized. To this end, we propose GeoMin, which models global feature distributions on labeled data to decode the structural discrepancy between correct and incorrect rollouts, thereby establishing a robust prior to assess the reliability of self-reward signals and fully unleash the potential of unlabeled data. Empirically, GeoMin outperforms the strongest baselines by +4.1% and even surpasses fully supervised models with only 10% of the annotations, demonstrating remarkable data efficiency.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習はLLM推論を大幅に進歩させるが、標準的な教師なしスケーリングは高いアノテーションコストによって妨げられ、教師なしの代替手段は深刻なモデル崩壊に悩まされるというジレンマに直面している。
最近の半教師付きRLVR法は、ラベルのないデータをガイドする小さなラベル付きセットを使用してこの問題に対処し、トレーニングの有効性とアノテーションコストの間の有望なトレードオフを実現する。
しかし、粗いパフォーマンスヒューリスティックに依存しているため、データ効率の深刻なボトルネックに悩まされ、大部分の価値あるインスタンスが未利用のままになった。
そこで本研究では,ラベル付きデータ上でのグローバルな特徴分布をモデル化して,不正なロールアウトと誤りなロールアウト間の構造的不一致をデコードし,自己回帰信号の信頼性を評価し,ラベル付きデータの可能性を完全に解き放つ前にロバスト性を確立するGeoMinを提案する。
実証的に、GeoMinは+4.1%で最強のベースラインを上回り、10%のアノテーションで完全に教師されたモデルを超え、顕著なデータ効率を示している。
関連論文リスト
- Smart Picks in the Dark: Towards Efficient RLVR for Reasoning via Tracing Metacognitive Pivots [29.141492387722963]
RLVRの「暗黒のピック」設定は、事前の監督なしに、トレーニングに最も有益でアノテーションに相応しいラベルなしサンプルを選択することを目的としている。
本稿では,3方向データトリアージフレームワークであるPivotTraceを提案する。
論文 参考訳(メタデータ) (2026-06-03T06:34:42Z) - Labels Matter More Than Models: Quantifying the Benefit of Supervised Time Series Anomaly Detection [56.302586730134806]
時系列異常検出(TSAD)は、しばしばラベル不足によって制約される重要なデータマイニングタスクである。
現在の研究は、主に教師なし時系列異常検出に焦点を当てている。
本稿では,アーキテクチャの複雑さがTSADの最適経路である,という前提に挑戦する。
論文 参考訳(メタデータ) (2025-11-20T08:32:49Z) - Heterogeneous Self-Supervised Acoustic Pre-Training with Local Constraints [64.15709757611369]
異種データを扱うための自己教師付き事前学習手法を提案する。
提案手法は、下流の教師付き微調整タスクに対する自己教師付き事前訓練モデルの適応性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2025-08-27T15:48:50Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - Semi-supervised Node Importance Estimation with Informative Distribution Modeling for Uncertainty Regularization [13.745026710984469]
異種グラフにおける未ラベルデータの学習品質向上を目的とした,最初の半教師付きノード重要度推定フレームワークであるEASINGを提案する。
従来のアプローチとは異なり、EASingはモデル予測の信頼性を反映する不確実性を明示的に捉えている。
EASINGはラベル付きおよび擬似ラベル付きデータに基づいて、ノードの不確かさの正則化を伴う効果的な半教師付きヘテロ代数学学習を開発する。
論文 参考訳(メタデータ) (2025-03-26T16:27:06Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - An Embedding is Worth a Thousand Noisy Labels [0.11999555634662634]
本稿では,重み付けされたアダプティブNearest Neighborアプローチを用いてラベルノイズに対処するWANNを提案する。
WANNの参照手法は、様々な大きさの多様なデータセットや、様々なノイズタイプや重大さで優れていることを示す。
私たちのアプローチは、効率性と説明可能性を強調し、ディープニューラルネットワークトレーニングの固有の制限を克服するための、シンプルで堅牢なソリューションとして現れます。
論文 参考訳(メタデータ) (2024-08-26T15:32:31Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。