論文の概要: Mixed-R1: Unified Reward Perspective For Reasoning Capability in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.24164v1
- Date: Fri, 30 May 2025 03:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.746337
- Title: Mixed-R1: Unified Reward Perspective For Reasoning Capability in Multimodal Large Language Models
- Title(参考訳): Mixed-R1:マルチモーダル大言語モデルにおける推論能力のための統一リワード視点
- Authors: Shilin Xu, Yanwei Li, Rui Yang, Tao Zhang, Yueyi Sun, Wei Chow, Linfeng Li, Hang Song, Qi Xu, Yunhai Tong, Xiangtai Li, Hao Fei,
- Abstract要約: マルチソースMLLMタスクを安定した強化学習に活用できる作業は存在しない。
混合報酬関数設計(Mixed-Reward)と混合後学習データセット(Mixed-45K)を含む統一的かつ簡単なフレームワークであるMixed-R1を提案する。
特に、バイナリ回答や複数選択問題に対する報酬のマッチング、チャート対応データセットに対するチャート報酬、基底問題に対するIoU報酬、キャプションデータセットのような長文応答に対するオープンエンド報酬の4つの異なる報酬機能がある。
- 参考スコア(独自算出の注目度): 44.32482918853282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works on large language models (LLMs) have successfully demonstrated the emergence of reasoning capabilities via reinforcement learning (RL). Although recent efforts leverage group relative policy optimization (GRPO) for MLLMs post-training, they constantly explore one specific aspect, such as grounding tasks, math problems, or chart analysis. There are no works that can leverage multi-source MLLM tasks for stable reinforcement learning. In this work, we present a unified perspective to solve this problem. We present Mixed-R1, a unified yet straightforward framework that contains a mixed reward function design (Mixed-Reward) and a mixed post-training dataset (Mixed-45K). We first design a data engine to select high-quality examples to build the Mixed-45K post-training dataset. Then, we present a Mixed-Reward design, which contains various reward functions for various MLLM tasks. In particular, it has four different reward functions: matching reward for binary answer or multiple-choice problems, chart reward for chart-aware datasets, IoU reward for grounding problems, and open-ended reward for long-form text responses such as caption datasets. To handle the various long-form text content, we propose a new open-ended reward named Bidirectional Max-Average Similarity (BMAS) by leveraging tokenizer embedding matching between the generated response and the ground truth. Extensive experiments show the effectiveness of our proposed method on various MLLMs, including Qwen2.5-VL and Intern-VL on various sizes. Our dataset and model are available at https://github.com/xushilin1/mixed-r1.
- Abstract(参考訳): 大規模言語モデル(LLM)に関する最近の研究は、強化学習(RL)による推論能力の出現を実証することに成功した。
最近の取り組みでは、MLLMのポストトレーニングにグループ相対ポリシー最適化(GRPO)を活用しているが、グラウンディングタスク、数学問題、チャート解析などの特定の側面を常に探求している。
マルチソースMLLMタスクを安定した強化学習に活用できる作業は存在しない。
本研究では,この問題を解決するための統一的な視点を示す。
混合報酬関数設計(Mixed-Reward)と混合後学習データセット(Mixed-45K)を含む,統一的で簡単なフレームワークであるMixed-R1を提案する。
データエンジンを設計し、高品質なサンプルを選択して、Mixed-45Kポストトレーニングデータセットを構築します。
次に,様々なMLLMタスクに対する報酬関数を含むMixed-Rewardの設計を提案する。
特に、バイナリ回答や複数選択問題に対する報酬のマッチング、チャート対応データセットに対するチャート報酬、基底問題に対するIoU報酬、キャプションデータセットのような長文応答に対するオープンエンド報酬の4つの異なる報酬機能がある。
各種長文テキストコンテンツを扱うために、生成した応答と基底真理とのマッチングを埋め込んだトークン化器を活用することにより、双方向最大平均類似度(BMAS)と呼ばれる新しいオープンエンド報酬を提案する。
Qwen2.5-VL や Intern-VL など,各種MLLM における提案手法の有効性について検討した。
データセットとモデルはhttps://github.com/xushilin1/mixed-r1で公開されています。
関連論文リスト
- MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning [37.71233459623324]
RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、大規模言語モデル(LLM)のポストトレーニングのための強力なパラダイムとして登場した。
RLVRをMultimodal LLM(MLLMs)に適用することは大きなチャンスであるが、視覚言語タスクの広範で異質な性質により複雑である。
本稿では、厳密なデータ混合問題定式化とベンチマーク実装を備えたマルチモーダルLLM RLVRのための体系的な後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:59:38Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts [21.066098443321966]
MLLM(Multimodal Large Language Models)に適したMixture of Experts(MoE)アーキテクチャであるAwaker2.5-VLを提案する。
Awaker2.5-VLのトレーニングと推論を高速化するために、我々のモデルの各専門家はローランク適応(LoRA)構造として考案される。
複数の最新のベンチマークの実験では、Awaker2.5-VLの有効性が示されている。
論文 参考訳(メタデータ) (2024-11-16T02:10:14Z) - Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [45.82577700155503]
Oniは分散アーキテクチャで、RLポリシーと本質的な報酬関数を同時に学習する。
提案手法は,NetHack 学習環境から得られる,難易度の高い報奨課題にまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T13:52:43Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。