論文の概要: Syn-GRPO: Self-Evolving Data Synthesis for MLLM Perception Reasoning
- arxiv url: http://arxiv.org/abs/2511.19343v1
- Date: Mon, 24 Nov 2025 17:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.347954
- Title: Syn-GRPO: Self-Evolving Data Synthesis for MLLM Perception Reasoning
- Title(参考訳): Syn-GRPO:MLLM知覚推論のための自己進化データ合成
- Authors: Qihan Huang, Haofei Zhang, Rong Wei, Yi Wang, Rui Tang, Mingli Song, Jie Song,
- Abstract要約: 本研究は、オンラインデータジェネレータを用いて、GRPOトレーニングにおける多様な応答で高品質なトレーニングデータを合成するSyn-GRPOを提案する。
実験の結果,Syn-GRPOはデータ品質を大きなマージンで改善し,既存のMLLM認識法よりも優れた性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 58.4099027998709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RL (reinforcement learning) methods (e.g., GRPO) for MLLM (Multimodal LLM) perception ability has attracted wide research interest owing to its remarkable generalization ability. Nevertheless, existing reinforcement learning methods still face the problem of low data quality, where data samples cannot elicit diverse responses from MLLMs, thus restricting the exploration scope for MLLM reinforcement learning. Some methods attempt to mitigate this problem by imposing constraints on entropy, but none address it at its root. Therefore, to tackle this problem, this work proposes Syn-GRPO (Synthesis-GRPO), which employs an online data generator to synthesize high-quality training data with diverse responses in GRPO training. Specifically, Syn-GRPO consists of two components: (1) data server; (2) GRPO workflow. The data server synthesizes new samples from existing ones using an image generation model, featuring a decoupled and asynchronous scheme to achieve high generation efficiency. The GRPO workflow provides the data server with the new image descriptions, and it leverages a diversity reward to supervise the MLLM to predict image descriptions for synthesizing samples with diverse responses. Experiment results across three visual perception tasks demonstrate that Syn-GRPO improves the data quality by a large margin, achieving significant superior performance to existing MLLM perception methods, and Syn-GRPO presents promising potential for scaling long-term self-evolving RL. Our code is available at https://github.com/hqhQAQ/Syn-GRPO.
- Abstract(参考訳): MLLM(Multimodal LLM)知覚能力に対するRL(強化学習)法(例えばGRPO)は、その顕著な一般化能力から広く研究されている。
それでも、既存の強化学習手法は、データサンプルがMLLMから多様な応答を引き出すことができず、MLLM強化学習の探索範囲が制限されるという、データ品質の低い問題に直面している。
エントロピーに制約を課すことでこの問題を緩和しようとする方法もあるが、根元で対処する手法はない。
そこで本研究では、オンラインデータジェネレータを用いて、GRPOトレーニングにおける多様な応答を伴う高品質なトレーニングデータを合成するSyn-GRPO(Synthesis-GRPO)を提案する。
具体的には、Syn-GRPOは、(1)データサーバ、(2)GRPOワークフローの2つのコンポーネントから構成される。
データサーバは、分離された非同期スキームを特徴とする画像生成モデルを用いて、既存のサンプルから新たなサンプルを合成し、高生成効率を実現する。
GRPOワークフローは、データサーバに新しい画像記述を提供し、多様性報酬を利用してMLLMを監督し、多様な応答を持つサンプルを合成するための画像記述を予測する。
3つの視覚的知覚課題を対象とした実験の結果,Syn-GRPOはデータ品質を大きなマージンで改善し,既存のMLLM認識手法よりも優れた性能を実現し,Syn-GRPOは長期自己進化型RLをスケールする有望な可能性を示唆している。
私たちのコードはhttps://github.com/hqhQAQ/Syn-GRPO.comで公開されています。
関連論文リスト
- Inpainting-Guided Policy Optimization for Diffusion Large Language Models [67.97530437998117]
自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。
本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
論文 参考訳(メタデータ) (2025-09-12T16:44:31Z) - A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis [43.746749403268275]
大規模言語モデル(LLM)は、計算コスト、環境不効率、モノリシックアーキテクチャから受け継いだ潜在的なバイアスに悩まされる。
我々は、高品質で多様な信頼性のあるデータを生成するために、小さなLLMにまたがる特殊な役割を集約する協調的なフレームワークGRAを提案する。
本研究は,データ合成におけるモノリシックな大規模モデルの必要性に挑戦し,より小さなエージェントの戦略的コーディネーションを提唱する。
論文 参考訳(メタデータ) (2025-04-11T06:13:43Z) - Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。
実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文 参考訳(メタデータ) (2024-12-23T09:29:40Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散モデルは現実的で多様な画像を生成することができ、データ集約的な知覚タスクのためのデータ可用性を促進する可能性がある。
textbfAuto textbfCherry-textbfPicker (ACP)を提案する。
論文 参考訳(メタデータ) (2024-06-28T17:53:18Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。