論文の概要: Learning from Less: Measuring the Effectiveness of RLVR in Low Data and Compute Regimes
- arxiv url: http://arxiv.org/abs/2604.18381v1
- Date: Mon, 20 Apr 2026 15:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.960867
- Title: Learning from Less: Measuring the Effectiveness of RLVR in Low Data and Compute Regimes
- Title(参考訳): 教訓から学ぶ:ローデータとコンピュータレジームにおけるRLVRの有効性の測定
- Authors: Justin Bauer, Thomas Walshe, Derek Pham, Harit Vishwakarma, Armin Parchami, Frederic Sala, Paroma Varma,
- Abstract要約: 微調整の大規模言語モデル(LLM)は、典型的には大量の高品質な注釈付きデータ、あるいは明確に定義された真実の答えを持つ質問に依存している。
従来の研究は、RLVR(Reinforcement Learning with Verifiable Rewards)で使用されるデータと計算の両方をスケールすることで、推論能力をモデル化するメリットを探求してきた。
本稿では、RLVR以降の低データ環境におけるオープンソースのSmall Language Model (SLM) の性能に関する総合的研究について述べる。
- 参考スコア(独自算出の注目度): 18.00712219143378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning Large Language Models (LLMs) typically relies on large quantities of high-quality annotated data, or questions with well-defined ground truth answers in the case of Reinforcement Learning with Verifiable Rewards (RLVR). While previous work has explored the benefits to model reasoning capabilities by scaling both data and compute used for RLVR, these results lack applicability in many real-world settings where annotated data and accessible compute may be scarce. In this work, we present a comprehensive empirical study of open-source Small Language Model (SLM) performance after RLVR in low data regimes. Across three novel datasets covering number counting problems, graph reasoning, and spatial reasoning, we characterize how model performance scales with dataset size, diversity, and complexity. We demonstrate that (1) procedural datasets allow for fine-grained evaluation and training dataset development with controllable properties (size, diversity, and complexity), (2) under RLVR, models trained on lower complexity tasks can generalize to higher complexity tasks, and (3) training on mixed complexity datasets is associated with the greatest benefits in low data regimes, providing up to 5x sample efficiency versus training on easy tasks. These findings inspire future work on the development of data scaling laws for RLVR and the use of procedural data generators to further understand effective data development for efficient LLM fine-tuning.
- Abstract(参考訳): 微調整大型言語モデル(LLMs)は、典型的には、大量の高品質な注釈付きデータや、Reinforcement Learning with Verifiable Rewards (RLVR) の場合、明確に定義された真理の答えを持つ質問に依存している。
これまでの研究では、RLVRで使用されるデータと計算の両方をスケールすることで、推論能力をモデル化するメリットについて検討してきたが、アノテーション付きデータやアクセス可能な計算が不足している実世界の多くの設定では、適用性に欠けていた。
本稿では,RLVR以降の低データ環境下でのオープンソースのSmall Language Model (SLM) の性能に関する総合的研究について述べる。
数値カウント問題,グラフ推論,空間推論の3つの新しいデータセットを網羅し,データセットのサイズ,多様性,複雑さによるモデルパフォーマンスのスケールを特徴付ける。
論文では,(1)制御可能な特性(サイズ,多様性,複雑性)を持つデータセットの微粒化評価とトレーニングを可能にするプロシージャデータセット,(2)RLVRの下では,より低い複雑性タスクで訓練されたモデルがより複雑なタスクに一般化可能であること,(3)混合複雑性データセットのトレーニングは,低データ構造における最大のメリットと結びついており,簡単なタスクでのトレーニングに比べて最大5倍のサンプル効率が期待できることを示した。
これらの知見は、RLVRにおけるデータスケーリング法則の開発と、効率的なLCM微調整のための効率的なデータ開発をより理解するための手続き型データジェネレータの利用に先立ち、今後の研究を刺激するものである。
関連論文リスト
- Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Dynamics of Instruction Fine-Tuning for Chinese Large Language Models [19.832906541004114]
本研究では,中国語大言語モデルの指導指導におけるデータ量,モデルサイズ,データ構築方法の影響を体系的に検討する。
実験では,7bから33bパラメータのモデルを用いて3つの重要な結果を得た。
論文 参考訳(メタデータ) (2023-10-30T15:37:10Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。