論文の概要: SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis
- arxiv url: http://arxiv.org/abs/2506.02096v1
- Date: Mon, 02 Jun 2025 17:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.913362
- Title: SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis
- Title(参考訳): SynthRL: 検証可能なデータ合成によるビジュアル推論のスケーリング
- Authors: Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh,
- Abstract要約: 推論指向RL学習における自動データスケーリングのためのスケーラブルで保証されたパイプラインであるSynthRLを提案する。
実験により,SynthRLのスケーラビリティと有効性を示す。
合成データを用いて訓練されたモデルは、5つの領域外視覚数学推論ベンチマークで一貫したゲインを得る。
- 参考スコア(独自算出の注目度): 9.47779155214011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) trained via reinforcement learning with verifiable reward (RLVR) have shown notable progress in scaling test-time compute effectively. In this work, we investigate how synthesized RL data can further improve RLVR. To this end, we propose \textbf{SynthRL}-a scalable and guaranteed pipeline for automatic data scaling in reasoning-oriented RL training. SynthRL comprises three key stages: (1) selecting seed questions with appropriate distribution, (2) augmenting them into more challenging variants while preserving the original answers, and (3) a guaranteed verification stage that ensures near-perfect correctness and difficulty enhancement. Our empirical experiments demonstrate SynthRL's scalability and effectiveness. When applied to the MMK12 dataset, SynthRL synthesizes over 3.3K additional verifiable, challenging questions from approximately 8K seed samples. Models trained with our synthesized data achieve consistent gains across five out-of-domain visual math reasoning benchmarks, with a significant improvement over baseline models trained on seed data alone. Notably, detailed analysis reveals that the gains are more pronounced on the most challenging evaluation samples, highlighting SynthRL's effectiveness in eliciting deeper and more complex reasoning patterns.
- Abstract(参考訳): 検証可能な報酬(RLVR)を用いた強化学習により訓練された視覚言語モデル(VLM)は、テスト時間計算を効果的にスケールする顕著な進歩を示している。
本研究では,合成されたRLデータをRLVRをさらに改善する方法について検討する。
この目的のために,推論指向RLトレーニングにおいて,自動データスケーリングのためのスケーラブルで保証されたパイプラインである \textbf{SynthRL} を提案する。
SynthRLは,(1)適切な分布で種質問を選択すること,(2)元の回答を保存しながらより困難な変種に拡張すること,(3)ほぼ完全な正しさと難易度を保証する保証された検証段階である。
実験により,SynthRLのスケーラビリティと有効性を示す。
MMK12データセットに適用すると、SynthRLはおよそ8Kのシードサンプルから3.3K以上の検証可能な、挑戦的な質問を合成する。
合成データでトレーニングされたモデルは、5つのドメイン外の視覚数学推論ベンチマークで一貫したゲインを得ることができ、シードデータだけでトレーニングされたベースラインモデルよりも大幅に改善される。
特に詳細な分析では、最も難しい評価サンプルでは、より深く複雑な推論パターンを引き出す上で、SynthRLの有効性が強調されている。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。
我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。
以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2025-05-06T07:57:16Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。
SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文 参考訳(メタデータ) (2024-06-14T03:39:01Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Synthetic Experience Replay [48.601879260071655]
エージェントの収集した経験を柔軟にアップサンプリングするための拡散に基づくアプローチであるSynthetic Experience Replay(SynthER)を提案する。
SynthERはオフラインおよびオンライン設定におけるRLエージェントのトレーニングに有効な方法であることを示す。
我々は、限られたデータからリプレイベースのRLアルゴリズムの深層学習の可能性を実現するために、合成トレーニングデータが扉を開くことができると信じている。
論文 参考訳(メタデータ) (2023-03-12T09:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。