論文の概要: Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO
- arxiv url: http://arxiv.org/abs/2505.22453v1
- Date: Wed, 28 May 2025 15:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.681965
- Title: Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO
- Title(参考訳): GRPOによるマルチモードLDM推論のための教師なし後訓練
- Authors: Lai Wei, Yuting Li, Chen Wang, Yue Wang, Linghe Kong, Weiran Huang, Lichao Sun,
- Abstract要約: MLLMの教師なし後学習のための簡易かつ効果的なフレームワークであるMM-UPTを提案する。
MM-UPTはGRPO上に構築され、従来の報酬信号を複数のサンプル応答に対する多数決に基づく自己回帰機構に置き換える。
実験により,MM-UPTはQwen2.5-VL-7Bの推論能力を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 25.288796606275973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving Multi-modal Large Language Models (MLLMs) in the post-training stage typically relies on supervised fine-tuning (SFT) or reinforcement learning (RL). However, these supervised methods require expensive and manually annotated multi-modal data--an ultimately unsustainable resource. While recent efforts have explored unsupervised post-training, their methods are complex and difficult to iterate. In this work, we are the first to investigate the use of GRPO, a stable and scalable online RL algorithm, for enabling continual self-improvement without any external supervision. We propose MM-UPT, a simple yet effective framework for unsupervised post-training of MLLMs. MM-UPT builds upon GRPO, replacing traditional reward signals with a self-rewarding mechanism based on majority voting over multiple sampled responses. Our experiments demonstrate that MM-UPT significantly improves the reasoning ability of Qwen2.5-VL-7B (e.g., 66.3 %$\rightarrow$72.9 % on MathVista, 62.9 %$\rightarrow$68.7 % on We-Math), using standard dataset without ground truth labels. MM-UPT also outperforms prior unsupervised baselines and even approaches the results of supervised GRPO. Furthermore, we show that incorporating synthetic questions, generated solely by MLLM itself, can boost performance as well, highlighting a promising approach for scalable self-improvement. Overall, MM-UPT offers a new paradigm for continual, autonomous enhancement of MLLMs in the absence of external supervision. Our code is available at https://github.com/waltonfuture/MM-UPT.
- Abstract(参考訳): ポストトレーニング段階におけるMLLM(Multi-modal Large Language Model)の改善は、典型的には教師付き微調整(SFT)や強化学習(RL)に依存している。
しかし、これらの教師付き手法は高価で手動で注釈付けされたマルチモーダルデータを必要とする。
最近の研究では教師なしのポストトレーニングが検討されているが、それらの手法は複雑で反復が難しい。
本研究では,安定かつスケーラブルなオンラインRLアルゴリズムであるGRPOを用いて,外部監視のない継続的自己改善を実現する。
MLLMの教師なし後学習のための簡易かつ効果的なフレームワークであるMM-UPTを提案する。
MM-UPTはGRPO上に構築され、従来の報酬信号を複数のサンプル応答に対する多数決に基づく自己回帰機構に置き換える。
実験の結果, MM-UPT はQwen2.5-VL-7B (e g , 66.3 %$\rightarrow$72.9 %, 62.9 %$\rightarrow$68.7 %) の推論能力を大幅に向上することが示された。
MM-UPTは、教師なしベースラインよりも優れており、教師なしGRPOの結果にもアプローチしている。
さらに,MLLM自体によってのみ生成される合成質問を組み込むことで,性能の向上が図られ,スケーラブルな自己改善のための有望なアプローチが浮かび上がっていることを示す。
総じて、MM-UPTは外部の監督がない場合にMLLMを継続的に自律的に拡張するための新しいパラダイムを提供する。
私たちのコードはhttps://github.com/waltonfuture/MM-UPT.comで利用可能です。
関連論文リスト
- MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - Large Language Model-Enhanced Multi-Armed Bandits [43.34246396804588]
大規模言語モデル(LLM)は、マルチアーム・バンディット(MAB)のようなシーケンシャルな意思決定タスクを解決するために採用されている。
古典的MABとLLMの強みを組み合わせた代替手法を提案する。
実世界のテキストデータセットを用いて設計したMABタスクと実験の両方を用いて経験的評価を行う。
論文 参考訳(メタデータ) (2025-02-03T07:19:05Z) - URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics [23.80647785460245]
Process Reward Models (PRM) は、大規模言語モデルの数学的推論能力を高めることを約束している。
マルチモーダル数学的推論におけるPRMの可能性を解き明かすための第一歩を踏み出す。
URSAは3段階のUnfolding Multimodal Process-Supervision Aided Trainingフレームワークである。
論文 参考訳(メタデータ) (2025-01-08T18:49:41Z) - 7B Fully Open Source Moxin-LLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement [42.10844666788254]
Moxin 7Bは、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に準拠した、完全にオープンソースのLarge Language Models (LLM) である。
トレーニング済みのコードと設定、トレーニングと微調整のデータセット、中間および最終チェックポイントをリリースします。
実験により, ゼロショット評価, 少数ショット評価, CoT評価など, 各種評価において, 優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-12-08T02:01:46Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。