論文の概要: ExpVG: Investigating the Design Space of Visual Grounding in Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2508.08066v2
- Date: Tue, 19 Aug 2025 23:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 12:38:45.380365
- Title: ExpVG: Investigating the Design Space of Visual Grounding in Multimodal Large Language Model
- Title(参考訳): ExpVG:マルチモーダル大言語モデルにおけるビジュアルグラウンドの設計空間の検討
- Authors: Weitai Kang, Weiming Zhuang, Zhizhong Li, Yan Yan, Lingjuan Lyu,
- Abstract要約: 本稿では,MLLMの視覚的接地性能に影響を及ぼす様々な設計選択について包括的に検討する。
LLaVA-1.5を用いて解析を行い,MLLMの実験的研究に広く採用されている。
以上の結果から,LLaVA-1.5より5.6%/+6.9%/+7.0%,RefCOCO/+/gの改善が得られた。
- 参考スコア(独自算出の注目度): 41.52520506543954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained multimodal capability in Multimodal Large Language Models (MLLMs) has emerged as a critical research direction, particularly for tackling the visual grounding (VG) problem. Despite the strong performance achieved by existing approaches, they often employ disparate design choices when fine-tuning MLLMs for VG, lacking systematic verification to support these designs. To bridge this gap, this paper presents a comprehensive study of various design choices that impact the VG performance of MLLMs. We conduct our analysis using LLaVA-1.5, which has been widely adopted in prior empirical studies of MLLMs. While more recent models exist, we follow this convention to ensure our findings remain broadly applicable and extendable to other architectures. We cover two key aspects: (1) exploring different visual grounding paradigms in MLLMs, identifying the most effective design, and providing our insights; and (2) conducting ablation studies on the design of grounding data to optimize MLLMs' fine-tuning for the VG task. Finally, our findings contribute to a stronger MLLM for VG, achieving improvements of +5.6% / +6.9% / +7.0% on RefCOCO/+/g over the LLaVA-1.5.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)における微細なマルチモーダル能力は、特に視覚的グラウンドリング(VG)問題に対処するための重要な研究方向として現れている。
既存のアプローチによって達成された強い性能にもかかわらず、VG向けに微調整されたMLLMでは異なる設計選択を採用することが多く、これらの設計をサポートするための体系的な検証が欠如していた。
本稿では,このギャップを埋めるために,MLLMのVG性能に影響を及ぼす様々な設計選択について包括的に検討する。
LLaVA-1.5を用いて解析を行い,MLLMの実験的研究に広く採用されている。
より最近のモデルが存在するが、我々の発見が広く適用され、他のアーキテクチャにも拡張可能であることを保証するために、この規約に従っている。
1)MLLMにおける異なる視覚的接地パラダイムを探索し、最も効果的な設計を特定し、洞察を提供すること、2)VGタスクのためのMLLMの微調整を最適化するための接地データの設計に関するアブレーション研究を行うことである。
その結果,LLaVA-1.5より5.6%,+6.9%,+7.0%,RefCOCO/+/gの改善が得られた。
関連論文リスト
- LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning [39.54891426369773]
モデルのサイズ、アーキテクチャ、パフォーマンスのトレードオフについては、まだ未検討のままです。
本稿では,近年の言語モデルと多様な視覚的バックボーンを統合したMLLMの新しいファミリーであるLLaVA-MOREを紹介する。
公平な比較を保証するため、すべてのアーキテクチャで一貫して適用される統一的なトレーニングプロトコルを使用します。
論文 参考訳(メタデータ) (2025-03-19T18:10:12Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。