論文の概要: SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis
- arxiv url: http://arxiv.org/abs/2506.02096v1
- Date: Mon, 02 Jun 2025 17:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.913362
- Title: SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis
- Title(参考訳): SynthRL: 検証可能なデータ合成によるビジュアル推論のスケーリング
- Authors: Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh,
- Abstract要約: 推論指向RL学習における自動データスケーリングのためのスケーラブルで保証されたパイプラインであるSynthRLを提案する。
実験により,SynthRLのスケーラビリティと有効性を示す。
合成データを用いて訓練されたモデルは、5つの領域外視覚数学推論ベンチマークで一貫したゲインを得る。
- 参考スコア(独自算出の注目度): 9.47779155214011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) trained via reinforcement learning with verifiable reward (RLVR) have shown notable progress in scaling test-time compute effectively. In this work, we investigate how synthesized RL data can further improve RLVR. To this end, we propose \textbf{SynthRL}-a scalable and guaranteed pipeline for automatic data scaling in reasoning-oriented RL training. SynthRL comprises three key stages: (1) selecting seed questions with appropriate distribution, (2) augmenting them into more challenging variants while preserving the original answers, and (3) a guaranteed verification stage that ensures near-perfect correctness and difficulty enhancement. Our empirical experiments demonstrate SynthRL's scalability and effectiveness. When applied to the MMK12 dataset, SynthRL synthesizes over 3.3K additional verifiable, challenging questions from approximately 8K seed samples. Models trained with our synthesized data achieve consistent gains across five out-of-domain visual math reasoning benchmarks, with a significant improvement over baseline models trained on seed data alone. Notably, detailed analysis reveals that the gains are more pronounced on the most challenging evaluation samples, highlighting SynthRL's effectiveness in eliciting deeper and more complex reasoning patterns.
- Abstract(参考訳): 検証可能な報酬(RLVR)を用いた強化学習により訓練された視覚言語モデル(VLM)は、テスト時間計算を効果的にスケールする顕著な進歩を示している。
本研究では,合成されたRLデータをRLVRをさらに改善する方法について検討する。
この目的のために,推論指向RLトレーニングにおいて,自動データスケーリングのためのスケーラブルで保証されたパイプラインである \textbf{SynthRL} を提案する。
SynthRLは,(1)適切な分布で種質問を選択すること,(2)元の回答を保存しながらより困難な変種に拡張すること,(3)ほぼ完全な正しさと難易度を保証する保証された検証段階である。
実験により,SynthRLのスケーラビリティと有効性を示す。
MMK12データセットに適用すると、SynthRLはおよそ8Kのシードサンプルから3.3K以上の検証可能な、挑戦的な質問を合成する。
合成データでトレーニングされたモデルは、5つのドメイン外の視覚数学推論ベンチマークで一貫したゲインを得ることができ、シードデータだけでトレーニングされたベースラインモデルよりも大幅に改善される。
特に詳細な分析では、最も難しい評価サンプルでは、より深く複雑な推論パターンを引き出す上で、SynthRLの有効性が強調されている。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Synthetic Experience Replay [48.601879260071655]
エージェントの収集した経験を柔軟にアップサンプリングするための拡散に基づくアプローチであるSynthetic Experience Replay(SynthER)を提案する。
SynthERはオフラインおよびオンライン設定におけるRLエージェントのトレーニングに有効な方法であることを示す。
我々は、限られたデータからリプレイベースのRLアルゴリズムの深層学習の可能性を実現するために、合成トレーニングデータが扉を開くことができると信じている。
論文 参考訳(メタデータ) (2023-03-12T09:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。