論文の概要: GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.04777v1
- Date: Thu, 08 Jan 2026 09:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.145416
- Title: GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models
- Title(参考訳): GeM-VG:マルチモーダル大言語モデルを用いた汎用マルチイメージビジュアルグラウンドの実現に向けて
- Authors: Shurong Zheng, Yousong Zhu, Hongyin Zhao, Fan Yang, Yufei Zhan, Ming Tang, Jinqiao Wang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、単一画像のグラウンド化と一般的な多画像理解において、目覚ましい進歩を見せている。
一般化されたマルチイメージの視覚的グラウンド化が可能なMLLMであるGeM-VGを提案する。
- 参考スコア(独自算出の注目度): 30.759062684007873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated impressive progress in single-image grounding and general multi-image understanding. Recently, some methods begin to address multi-image grounding. However, they are constrained by single-target localization and limited types of practical tasks, due to the lack of unified modeling for generalized grounding tasks. Therefore, we propose GeM-VG, an MLLM capable of Generalized Multi-image Visual Grounding. To support this, we systematically categorize and organize existing multi-image grounding tasks according to their reliance of cross-image cues and reasoning, and introduce the MG-Data-240K dataset, addressing the limitations of existing datasets regarding target quantity and image relation. To tackle the challenges of robustly handling diverse multi-image grounding tasks, we further propose a hybrid reinforcement finetuning strategy that integrates chain-of-thought (CoT) reasoning and direct answering, considering their complementary strengths. This strategy adopts an R1-like algorithm guided by a carefully designed rule-based reward, effectively enhancing the model's overall perception and reasoning capabilities. Extensive experiments demonstrate the superior generalized grounding capabilities of our model. For multi-image grounding, it outperforms the previous leading MLLMs by 2.0% and 9.7% on MIG-Bench and MC-Bench, respectively. In single-image grounding, it achieves a 9.1% improvement over the base model on ODINW. Furthermore, our model retains strong capabilities in general multi-image understanding.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、単一画像のグラウンド化と一般的な多画像理解において、目覚ましい進歩を見せている。
近年,複数の画像のグラウンド化に対処する手法が提案されている。
しかし、一般化された接地タスクの統一的モデリングが欠如していることから、単一ターゲットのローカライゼーションと限られた種類の実践的タスクに制約されている。
そこで本稿では,汎用型マルチイメージ視覚接地が可能なMLLMであるGeM-VGを提案する。
これを支援するために,クロスイメージ・キューと推論に頼って既存のマルチイメージグラウンドタスクを体系的に分類,整理し,MG-Data-240Kデータセットを導入し,対象量と画像関係に関する既存のデータセットの限界に対処する。
多様なマルチイメージのグラウンディングタスクを頑健に扱うことの課題に対処するために,我々はさらに,その相補的な強みを考慮して,チェーン・オブ・ソート(CoT)推論と直接回答を統合したハイブリッド強化微調整戦略を提案する。
この戦略は、慎重に設計されたルールベースの報酬によって導かれるR1のようなアルゴリズムを採用し、モデル全体の知覚と推論能力を効果的に強化する。
大規模な実験は、我々のモデルのより優れた一般化された接地能力を示す。
マルチイメージグラウンドでは、MIG-BenchとMC-Benchでそれぞれ2.0%、9.7%の先行するMLLMを上回っている。
シングルイメージグラウンドでは、ODINWのベースモデルよりも9.1%改善されている。
さらに、我々のモデルは、一般的なマルチイメージ理解において強力な能力を維持している。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Improving the Reasoning of Multi-Image Grounding in MLLMs via Reinforcement Learning [28.111812077758845]
MLLM(Multimodal Large Language Models)は、テキスト参照を持つ単一画像シナリオにおいて、視覚的グラウンド化に優れる。
しかし、複雑なマルチイメージ合成とマルチモーダル命令を含む実世界のアプリケーションを扱う場合、パフォーマンスは劣化する。
我々は、強化学習に基づくポストトレーニング戦略を採用し、マルチイメージグラウンドタスクにおけるMLLMの推論を改善する。
論文 参考訳(メタデータ) (2025-07-01T13:48:57Z) - PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。