論文の概要: One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling
- arxiv url: http://arxiv.org/abs/2601.03111v1
- Date: Tue, 06 Jan 2026 15:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.994827
- Title: One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling
- Title(参考訳): ルールの1つの例:RLスケーリングにおける極端データ効率
- Authors: Yiyuan Li, Zhen Huang, Yanan Wu, Weixun Wang, Xuefeng Li, Yijia Luo, Wenbo Su, Bo Zheng, Pengfei Liu,
- Abstract要約: 本稿では,複数の学際的影響をもたらす1つのトレーニングサンプルを設計するためのフレームワークを提案する。
戦略的に選択された1つの数学推論サンプルは、複数のドメイン間で大きなパフォーマンス改善をもたらすことができる。
以上の結果から, サンプル工学とよばれる, トレーニングサンプルの精密工学へのシフトが示唆された。
- 参考スコア(独自算出の注目度): 40.014343842812906
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The reasoning ability of large language models (LLMs) can be unleashed with reinforcement learning (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). The success of existing RL attempts in LLMs usually relies on high-quality samples of thousands or beyond. In this paper, we challenge fundamental assumptions about data requirements in RL for LLMs by demonstrating the remarkable effectiveness of one-shot learning. Specifically, we introduce polymath learning, a framework for designing one training sample that elicits multidisciplinary impact. We present three key findings: (1) A single, strategically selected math reasoning sample can produce significant performance improvements across multiple domains, including physics, chemistry, and biology with RL; (2) The math skills salient to reasoning suggest the characteristics of the optimal polymath sample; and (3) An engineered synthetic sample that integrates multidiscipline elements outperforms training with individual samples that naturally occur. Our approach achieves superior performance to training with larger datasets across various reasoning benchmarks, demonstrating that sample quality and design, rather than quantity, may be the key to unlock enhanced reasoning capabilities in language models. Our results suggest a shift, dubbed as sample engineering, toward precision engineering of training samples rather than simply increasing data volume.
- Abstract(参考訳): 大きな言語モデル(LLM)の推論能力は、強化学習(RL)によって解き放つことができる(OpenAI, 2024; DeepSeek-AI et al , 2025a; Zeng et al , 2025)。
LLMにおける既存のRLの試みの成功は、通常数千以上の高品質なサンプルに依存している。
本稿では、一発学習の顕著な効果を実証し、LLMにおけるRLにおけるデータ要求に関する基本的な仮定に挑戦する。
具体的には,多分野に影響を及ぼす1つのトレーニングサンプルを設計するためのフレームワークであるpolymath Learningを紹介する。
一つの戦略的に選択された数学推論サンプルは, 物理, 化学, 生物学を含む複数の分野において, RLを用いて大きな性能向上を達成できる, 2) 推論に優れた数学スキルは, 最適多面体標本の特性を示唆する; (3) 自然に発生する個々の標本の訓練に優れた多分野の要素を組み込んだ, 工学的な合成サンプルである。
提案手法は,多種多様な推論ベンチマークを用いた大規模データセットによるトレーニングよりも優れた性能を実現し,量ではなく,サンプルの品質と設計が,言語モデルで強化された推論能力を開放する鍵であることを実証する。
以上の結果から,単にデータ量を増やすのではなく,トレーニングサンプルの精密エンジニアリングへのシフトが示唆された。
関連論文リスト
- Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:12:40Z) - Reasoning with Sampling: Your Base Model is Smarter Than You Think [52.639108524651846]
本稿では,基本モデル自身の可能性を利用した単純な反復サンプリングアルゴリズムを提案する。
我々のアルゴリズムは、ほぼ一致し、RLのアルゴリズムよりも優れているという推論において、大幅に向上することを示した。
我々の方法は、トレーニング、キュレートされたデータセット、検証器を必要としない。
論文 参考訳(メタデータ) (2025-10-16T17:18:11Z) - WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning [17.459985667824807]
DeepSeek-R1のようなテキストベースの推論モデルの成功に基づいて、これらの機能をマルチモーダル推論に拡張することは大きな約束である。
本稿では,強化学習を通じて汎用的な視覚言語推論を実現する方法について述べる。
論文 参考訳(メタデータ) (2025-06-09T16:20:54Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。