論文の概要: TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning
- arxiv url: http://arxiv.org/abs/2512.13106v1
- Date: Mon, 15 Dec 2025 09:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.593659
- Title: TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning
- Title(参考訳): TraPO: LLM推論の強化を目的とした半教師付き強化学習フレームワーク
- Authors: Shenzhi Yang, Guangcheng Zhu, Xing Zheng, Yingfan MA, Zhongqi Chen, Bowen Song, Weiqiang Wang, Junbo Zhao, Gang Chen, Haobo Wang,
- Abstract要約: 検証可能な報酬(RLVR)を用いた強化学習は、大きな推論モデル(LRM)の訓練に有効であることが証明された。
提案アルゴリズムは,学習軌跡とラベル付き標本との類似性を一致させることで,信頼できない標本を同定する。
1Kのラベル付きサンプルと3Kのラベルなしサンプルだけで、TraPOの平均精度は42.6%に達し、45Kのラベルなしサンプル(38.3%)で訓練された最高の教師なしメソッドを上回った。
- 参考スコア(独自算出の注目度): 33.47825979936341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has proven effective in training large reasoning models (LRMs) by leveraging answer-verifiable signals to guide policy optimization, which, however, suffers from high annotation costs. To alleviate this problem, recent work has explored unsupervised RLVR methods that derive rewards solely from the model's internal consistency, such as through entropy and majority voting. While seemingly promising, these methods often suffer from model collapse in the later stages of training, which may arise from the reinforcement of incorrect reasoning patterns in the absence of external supervision. In this work, we investigate a novel semi-supervised RLVR paradigm that utilizes a small labeled set to guide RLVR training on unlabeled samples. Our key insight is that supervised rewards are essential for stabilizing consistency-based training on unlabeled samples, ensuring that only reasoning patterns verified on labeled instances are incorporated into RL training. Technically, we propose an effective policy optimization algorithm, TraPO, that identifies reliable unlabeled samples by matching their learning trajectory similarity to labeled ones. Building on this, TraPO achieves remarkable data efficiency and strong generalization on six widely used mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). With only 1K labeled and 3K unlabeled samples, TraPO reaches 42.6% average accuracy, surpassing the best unsupervised method trained on 45K unlabeled samples (38.3%). Notably, when using 4K labeled and 12K unlabeled samples, TraPO even outperforms the fully supervised model trained on the full 45K labeled samples on all benchmarks, while using only 10% of the labeled data. The code is available via https://github.com/ShenzhiYang2000/TRAPO.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、応答検証可能な信号を活用して大きな推論モデル(LRM)の訓練に有効であることが証明されている。
この問題を軽減するために、最近の研究は、エントロピーや多数決投票など、モデルの内部的な一貫性からのみ報酬を導き出す、教師なしのRLVR手法を探求している。
一見有望なように見えるが、これらの手法は訓練後期にモデル崩壊に悩まされることが多く、これは外部の監督がない場合に誤った推論パターンの強化によって生じる可能性がある。
そこで本研究では、ラベル付き小さなセットを用いて、ラベルなしサンプル上でのRLVRトレーニングをガイドする、新しい半教師付きRLVRパラダイムについて検討する。
我々の重要な洞察は、ラベル付きインスタンスで検証された推論パターンだけがRLトレーニングに組み込まれることを保証するために、教師付き報酬が、ラベル付きサンプル上での一貫性ベースのトレーニングの安定化に不可欠であるということです。
技術的には,ラベル付きと学習軌跡の類似性を一致させることで,信頼性の高いラベル付きサンプルを識別する効果的なポリシー最適化アルゴリズムであるTraPOを提案する。
これに基づいて、TraPOは6つの広く使われている数学推論ベンチマーク(AIME24/25、AMC、MATH-500、Minerva、Olympiad)と3つのアウト・オブ・ディストリビューションタスク(ARC-c、GPQA-diamond、MMLU-pro)で顕著なデータ効率と強力な一般化を実現している。
1Kのラベル付きサンプルと3Kのラベルなしサンプルだけで、TraPOの平均精度は42.6%に達し、45Kのラベルなしサンプル(38.3%)で訓練された最高の教師なしメソッドを上回っている。
特に、4Kラベル付きと12Kラベルなしのサンプルを使用する場合、TraPOは全ベンチマークで45Kラベル付きサンプルでトレーニングされた完全な教師付きモデルよりも優れており、ラベル付きデータの10%しか使用していない。
コードはhttps://github.com/ShenzhiYang2000/TRAPOから入手できる。
関連論文リスト
- SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning [39.1720897614261]
密度の高いステップレベルのフィードバックを提供するプロセス報酬モデル(PRM)は、強化学習の可能性を示している。
筆者らはSPARK(SPARK)という3段階のフレームワークを提案し、第1段階ではジェネレータモデルが多様な解を生成し、検証器モデルがそれらを評価する。
ステップレベルで複数の独立した検証を集約することで、根底的な結果管理を超越したプロセス報酬モデルのトレーニングデータが得られることを示す。
論文 参考訳(メタデータ) (2025-12-02T21:30:47Z) - Reasoning with Sampling: Your Base Model is Smarter Than You Think [52.639108524651846]
本稿では,基本モデル自身の可能性を利用した単純な反復サンプリングアルゴリズムを提案する。
我々のアルゴリズムは、ほぼ一致し、RLのアルゴリズムよりも優れているという推論において、大幅に向上することを示した。
我々の方法は、トレーニング、キュレートされたデータセット、検証器を必要としない。
論文 参考訳(メタデータ) (2025-10-16T17:18:11Z) - Self-Improving LLM Agents at Test-Time [49.9396634315896]
言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。
実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。
テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
論文 参考訳(メタデータ) (2025-10-09T06:37:35Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - How Low Can You Go? Surfacing Prototypical In-Distribution Samples for Unsupervised Anomaly Detection [48.30283806131551]
非常に少ないトレーニングサンプルを持つUADが、トレーニングデータセット全体のトレーニングパフォーマンスにすでに一致している - そして、場合によっては、それを超えることもある、ということが、私たちは示しています。
そこで本研究では,UAD性能をさらに向上させるために,原型標本を確実に同定するための教師なし手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T15:30:47Z) - Active Self-Semi-Supervised Learning for Few Labeled Samples [4.713652957384158]
アノテーションを限定した深層モデルのトレーニングは、さまざまな実践領域に適用する上で、大きな課題となる。
我々は,シンプルで効果的な自己半教師付き学習(AS3L)を提案する。
擬似ラベル(PPL)を用いたAS3Lブートストラップ半教師付きモデル
我々は,正確なPPLを得るために,能動的学習とラベル伝搬戦略を開発した。
論文 参考訳(メタデータ) (2022-03-09T07:45:05Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。