論文の概要: CGC: Compositional Grounded Contrast for Fine-Grained Multi-Image Understanding
- arxiv url: http://arxiv.org/abs/2604.22498v1
- Date: Fri, 24 Apr 2026 12:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.451386
- Title: CGC: Compositional Grounded Contrast for Fine-Grained Multi-Image Understanding
- Title(参考訳): CGC:微粒化マルチイメージ理解のための合成接地コントラスト
- Authors: Lihao Zheng, Zhenwei Shao, Yu Zhou, Yan Yang, Xintian Shen, Jiawei Chen, Hao Ma, Tao Wei,
- Abstract要約: MLLMの微細なマルチイメージ理解を促進するための,低コストなフルフレームワークであるComposeal Grounded Contrast (CGC)を提案する。
CGCは、イントラ画像コントラストとイントラ画像コントラストを通じて、コンストラクショナルなマルチイメージトレーニングインスタンスを構築する。
CGC は MIG-Bench や VLM2-Bench などの細粒度マルチイメージのベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 15.821484459549369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Multimodal Large Language Models (MLLMs) have advanced rapidly, they still face notable challenges in fine-grained multi-image understanding, often exhibiting spatial hallucination, attention leakage, and failures in object constancy. In addition, existing approaches typically rely on expensive human annotations or large-scale chain-of-thought (CoT) data generation. We propose Compositional Grounded Contrast (abbr. CGC), a low-cost full framework for boosting fine-grained multi-image understanding of MLLMs. Built on existing single-image grounding annotations, CGC constructs compositional multi-image training instances through Inter-Image Contrast and Intra-Image Contrast, which introduce semantically decoupled distractor contexts for cross-image discrimination and correlated cross-view samples for object constancy, respectively. CGC further introduces a Rule-Based Spatial Reward within the GRPO framework to improve source-image attribution, spatial alignment, and structured output validity under a Think-before-Grounding paradigm. Experiments show that CGC achieves state-of-the-art results on fine-grained multi-image benchmarks, including MIG-Bench and VLM2-Bench. The learned multi-image understanding capability also transfers to broader multimodal understanding and reasoning tasks, yielding consistent gains over the Qwen3-VL-8B base model on MathVista (+2.90), MuirBench (+2.88), MMStar (+1.93), MMMU (+1.77), and BLINK (+1.69).
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は急速に進歩しているが、空間幻覚、注意漏れ、オブジェクトの一貫性の失敗など、細粒度のマルチイメージ理解において注目すべき課題に直面している。
加えて、既存のアプローチは一般的に高価な人間のアノテーションや大規模なCoTデータ生成に依存します。
MLLMの微細なマルチイメージ理解を促進するための,低コストなフルフレームワークであるComposeal Grounded Contrast (CGC)を提案する。
既存の単一イメージの基底アノテーションに基づいて構築されたCGCは、画像間コントラストと画像内コントラストを通じて構成的なマルチイメージトレーニングインスタンスを構築し、画像間識別のための意味的に分離されたトラクタコンテキストと、オブジェクトの一貫性のための相関したクロスビューサンプルをそれぞれ導入する。
CGCはさらに、GRPOフレームワーク内でルールベースの空間リワードを導入し、Think-before-Groundingパラダイムの下で、ソースイメージの属性、空間アライメント、構造化された出力妥当性を改善する。
実験の結果、CGCはMIG-BenchやVLM2-Benchを含む細粒度マルチイメージのベンチマークにおいて、最先端の結果が得られることがわかった。
学習されたマルチイメージ理解能力は、より広範なマルチモーダル理解と推論タスクに移行し、MathVista (+2.90), MuirBench (+2.88), MMStar (+1.93), MMMU (+1.77), BLINK (+1.69), 上のQwen3-VL-8Bベースモデルに対して一貫した利得をもたらす。
関連論文リスト
- MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models [89.89575486159795]
マルチイメージコンテキスト生成のためのベンチマークである textbfMICON-Bench を導入する。
本稿では,意味的および視覚的整合性の自動検証のためのMLLM駆動型評価-Checkpointフレームワークを提案する。
また、推論中に注意を動的に調整し、コヒーレンスを高め、幻覚を減らす訓練不要なプラグアンドプレイ機構であるtextbfDynamic Attention Rebalancing (DAR) を提案する。
論文 参考訳(メタデータ) (2026-02-23T04:32:52Z) - UniRef-Image-Edit: Towards Scalable and Consistent Multi-Reference Image Editing [33.64590153603506]
高性能なマルチモーダル生成システムUniRef-Image-Editを提案する。
単一画像編集と複数画像合成を単一のフレームワークに統合する。
論文 参考訳(メタデータ) (2026-02-15T15:24:03Z) - Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。
UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。
画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T06:42:49Z) - GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models [30.759062684007873]
MLLM(Multimodal Large Language Models)は、単一画像のグラウンド化と一般的な多画像理解において、目覚ましい進歩を見せている。
一般化されたマルチイメージの視覚的グラウンド化が可能なMLLMであるGeM-VGを提案する。
論文 参考訳(メタデータ) (2026-01-08T09:58:35Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - Deep Image Clustering with Contrastive Learning and Multi-scale Graph
Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。
複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2022-07-14T19:16:56Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。