論文の概要: DiG: Differential Grounding for Enhancing Fine-Grained Perception in Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2512.12633v1
- Date: Sun, 14 Dec 2025 10:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.353946
- Title: DiG: Differential Grounding for Enhancing Fine-Grained Perception in Multimodal Large Language Model
- Title(参考訳): DiG:多モーダル大言語モデルにおける微粒化知覚の促進のための微分基底法
- Authors: Zhou Tao, Shida Wang, Yongxiang Hua, Haoyu Cao, Linli Xu,
- Abstract要約: DiG (Differential Grounding) は、MLLM がより詳細な認識を学習する新しいプロキシ・タスク・フレームワークである。
この結果は,MLLMの微細な視覚的推論を向上するための,スケーラブルで堅牢なアプローチとして,微分接地に注目した。
- 参考スコア(独自算出の注目度): 22.28268642142352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models have achieved impressive performance on a variety of vision-language tasks, yet their fine-grained visual perception and precise spatial reasoning remain limited. In this work, we introduce DiG (Differential Grounding), a novel proxy task framework where MLLMs learn fine-grained perception by identifying and localizing all differences between similar image pairs without prior knowledge of their number. To support scalable training, we develop an automated 3D rendering-based data generation pipeline that produces high-quality paired images with fully controllable discrepancies. To address the sparsity of difference signals, we further employ curriculum learning that progressively increases complexity from single to multiple differences, enabling stable optimization. Extensive experiments demonstrate that DiG significantly improves model performance across a variety of visual perception benchmarks and that the learned fine-grained perception skills transfer effectively to standard downstream tasks, including RefCOCO, RefCOCO+, RefCOCOg, and general multimodal perception benchmarks. Our results highlight differential grounding as a scalable and robust approach for advancing fine-grained visual reasoning in MLLMs.
- Abstract(参考訳): マルチモーダル大規模言語モデルは様々な視覚言語タスクにおいて印象的な性能を達成しているが、その微粒な視覚知覚と正確な空間推論は依然として限られている。
そこで本稿では,MLLM が各画像間の差分を事前に把握せずに識別し,局所化することで,より詳細な認識を学習する新しいプロキシ・タスク・フレームワークである DiG (Differential Grounding) を紹介する。
スケーラブルなトレーニングを支援するために,完全制御可能な高画質なペア画像を生成する3Dレンダリングに基づく自動データ生成パイプラインを開発した。
差分信号のばらつきに対処するために、我々はさらに、一から複数への複雑性を段階的に増加させ、安定した最適化を可能にするカリキュラム学習を採用する。
広範囲な実験により、DiGは様々な視覚知覚ベンチマークでモデル性能を著しく改善し、学習された微粒化認識スキルは、RefCOCO、RefCOCO+、RefCOCOg、一般的なマルチモーダル知覚ベンチマークなどの標準下流タスクに効果的に移行することを示した。
この結果は,MLLMの微細な視覚的推論を向上するための,スケーラブルで堅牢なアプローチとして,微分接地に注目した。
関連論文リスト
- Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Improved Baselines for Data-efficient Perceptual Augmentation of LLMs [66.05826802808177]
コンピュータビジョンでは、画像キャプションや視覚的質問応答などの視覚言語タスクに、大きな言語モデル(LLM)を用いることができる。
複数のタスクにまたがる異なる対面機構を実験的に評価する。
異なるタスク間で(ほぼ)最適な結果をもたらす新しいインターフェース機構を同定し、トレーニング時間を4倍短縮する。
論文 参考訳(メタデータ) (2024-03-20T10:57:17Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。