Fugu-MT 論文翻訳(概要): MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

論文の概要: MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

arxiv url: http://arxiv.org/abs/2505.13031v2
Date: Wed, 11 Jun 2025 15:44:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 04:22:26.077784
Title: MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO
Title（参考訳）: MindOmni: RGPOを用いた視覚言語モデルにおける推論生成
Authors: Yicheng Xiao, Lin Song, Yukang Chen, Yingmin Luo, Yuxin Chen, Yukang Gan, Wei Huang, Xiu Li, Xiaojuan Qi, Ying Shan,
Abstract要約: 近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
参考スコア（独自算出の注目度）: 87.52631406241456
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent text-to-image systems face limitations in handling multimodal inputs and complex reasoning tasks. We introduce MindOmni, a unified multimodal large language model that addresses these challenges by incorporating reasoning generation through reinforcement learning. MindOmni leverages a three-phase training strategy: i) design of a unified vision language model with a decoder-only diffusion module, ii) supervised fine-tuning with Chain-of-Thought (CoT) instruction data, and iii) our proposed Reasoning Generation Policy Optimization (RGPO) algorithm, utilizing multimodal feedback to effectively guide policy updates. Experimental results demonstrate that MindOmni outperforms existing models, achieving impressive performance on both understanding and generation benchmarks, meanwhile showcasing advanced fine-grained reasoning generation capabilities, especially with mathematical reasoning instruction. All codes will be made public at https://github.com/TencentARC/MindOmni
Abstract（参考訳）: 近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMindOmniを紹介する。 MindOmniは3段階のトレーニング戦略を活用している。一復号器のみの拡散モジュールを備えた統合視覚言語モデルの設計二 Chain-of-Thought(CoT)命令データによる微調整の監督及び三ポリシー更新を効果的に導くために、マルチモーダルフィードバックを利用した推論生成ポリシー最適化(RGPO)アルゴリズムを提案する。実験の結果、MindOmniは既存のモデルよりも優れており、理解と生成のベンチマークにおいて優れた性能を発揮し、一方で、特に数学的推論の指導において、高度な微粒な推論生成能力を示した。すべてのコードはhttps://github.com/TencentARC/MindOmniで公開される。

関連論文リスト

Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文参考訳（メタデータ） (2026-03-03T18:58:00Z)
UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文参考訳（メタデータ） (2026-03-03T18:36:16Z)
ThinkGen: Generalized Thinking for Visual Generation [97.19923474851987]
ThinkGenは、さまざまな世代のシナリオでChain-of-Thought(CoT)推論を明示的に活用する、思考駆動のビジュアル生成フレームワークである。本稿では,MLLMとDiTモジュール間の強化学習を交互に行う,分離可能なGRPOベースのトレーニングパラダイムを提案する。実験の結果、ThinkGenは複数の世代ベンチマークで堅牢で最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-12-29T16:08:50Z)
Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models [28.416254061159176]
マルチモーダルキーフレーズ予測(MMKP)は、テキストのみの手法を超えて進歩することを目的としている。従来のマルチモーダルアプローチは、困難な不在と目に見えないシナリオを扱う上で、重大な制限があることが証明されている。 MMKPタスクに視覚言語モデル(VLM)を活用することを提案する。
論文参考訳（メタデータ） (2025-10-10T13:13:07Z)
Simple o3: Towards Interleaved Vision-Language Reasoning [38.46230601239066]
我々は、動的ツールインタラクションをインターリーブされた視覚言語推論に統合する、エンドツーエンドのフレームワークであるSimple o3を提案する。提案手法は,高品質な視覚言語推論チェーンを生成するスケーラブルなデータ合成パイプラインを特徴とする。実験の結果、Simple o3は様々なベンチマークで優れたパフォーマンスを示し、既存のアプローチよりも優れています。
論文参考訳（メタデータ） (2025-08-16T17:15:39Z)
Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文参考訳（メタデータ） (2025-06-09T17:38:45Z)
Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文参考訳（メタデータ） (2025-05-23T08:18:00Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
本稿では,MUSE-VL(Unified Vision-Language Model Semantic)を紹介する。提案手法は,従来のSOTA Emu3に比べて4.8%向上し,LLaVA-NeXT 34Bを3.7%上回った。
論文参考訳（メタデータ） (2024-11-26T03:33:52Z)
What Makes Large Language Models Reason in (Multi-Turn) Code Generation? [28.614888506962988]
思考の連鎖は、大規模言語モデル(LLM)の出力を改善するための一般的な手段として確立されている。本稿では,複数回にまたがる自動再プロンプトに焦点をあてて,幅広いプロンプト戦略の効果について検討する。本研究は, 小型かつ大規模なサンプリング予算を持つ全モデルにおいて, 継続的に性能を向上させる戦略を明らかにする。
論文参考訳（メタデータ） (2024-10-10T16:53:10Z)
MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。 MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文参考訳（メタデータ） (2024-09-26T09:57:16Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
Multi-modal Latent Space Learning for Chain-of-Thought Reasoning in Language Models [25.058162782167503]
CoT推論(Chain-of-thinkt)は、複雑なタスクの解決と質問に答えるための言語モデルにおいて、素晴らしいパフォーマンスを示している。本稿では,言語思考に整合した効果的な画像特徴を生成するために,拡散過程による潜時空間学習を利用するマルチモーダルCoT推論の新しい手法を提案する。提案手法は画像特徴とテキスト表現を深いレベルで融合し,マルチモーダルCoTの複雑な推論能力を向上させる。
論文参考訳（メタデータ） (2023-12-14T09:13:09Z)
Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文参考訳（メタデータ） (2023-02-02T07:51:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。