論文の概要: Hierarchical Contextual Grounding LVLM: Enhancing Fine-Grained Visual-Language Understanding with Robust Grounding
- arxiv url: http://arxiv.org/abs/2508.16974v1
- Date: Sat, 23 Aug 2025 09:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.277122
- Title: Hierarchical Contextual Grounding LVLM: Enhancing Fine-Grained Visual-Language Understanding with Robust Grounding
- Title(参考訳): 階層的文脈接地LVLM:ロバスト接地による細粒度視覚言語理解の強化
- Authors: Leilei Guo, Antonio Carlos Rivera, Peiyu Tang, Haoxuan Ren, Zheyu Song,
- Abstract要約: Hierarchical Contextual Grounding LVLM(HCG-LVLM)は、人間の粗い認知処理を模倣する新しいアーキテクチャである。
本モデルでは, より精度が高く, 幻覚を著しく低減し, 階層設計の有効性を検証した。
- 参考スコア(独自算出の注目度): 0.3262230127283452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) and Vision-Language Large Models (LVLMs) have achieved remarkable progress in natural language processing and multimodal understanding. Despite their impressive generalization capabilities, current LVLMs often exhibit insufficient robustness, proneness to hallucination, and reasoning errors in complex real-world scenarios, particularly when precise image region localization and fine-grained visual reasoning are required. To address these limitations, we propose the Hierarchical Contextual Grounding LVLM (HCG-LVLM), a novel architecture that mimics human coarse-to-fine cognitive processing. HCG-LVLM employs a two-layered approach: a Global Contextual Perception layer for initial broad understanding and a Fine-grained Local Grounding layer. The latter incorporates a Local Detail Enhancement Module to extract high-resolution features and a Semantic Consistency Validator to ensure accurate, hallucination-free visual-language alignment. Through an adaptive fusion mechanism, information from both layers is integrated for robust and precise outputs. Extensive experiments on challenging datasets, including GQA, A-OKVQA for fine-grained VQA, and RefCOCO/+/g for Referring Expression Comprehension, demonstrate that HCG-LVLM consistently outperforms state-of-the-art models such as Flamingo, BLIP-2, and MiniGPT-4. Our model achieves superior accuracy and significantly reduces hallucination, validating the effectiveness of its hierarchical design in enhancing fine-grained visual-language understanding and precise grounding capabilities.
- Abstract(参考訳): 大規模言語モデル (LLM) と視覚言語大モデル (LVLM) は、自然言語処理とマルチモーダル理解において顕著な進歩を遂げている。
それらの印象的な一般化能力にもかかわらず、現在のLVLMは、複雑な現実のシナリオにおいて、特に正確な画像領域のローカライゼーションときめ細かい視覚的推論を必要とする場合に、不十分な堅牢性、幻覚の傾向、推論エラーを示すことが多い。
これらの制約に対処するために,人間の粗大な認知処理を模倣する新しいアーキテクチャである階層的文脈接地LVLM(HCG-LVLM)を提案する。
HCG-LVLMは、最初の広義理解のためのグローバルコンテキスト知覚層と、きめ細かい局所接地層という2層的アプローチを採用している。
後者には、高精細な特徴を抽出するLocal Detail Enhancement Moduleと、正確な幻覚のない視覚言語アライメントを保証するSemantic Consistency Validatorが組み込まれている。
適応的な融合機構により、両方の層からの情報は堅牢で正確な出力のために統合される。
GQA、A-OKVQA、Referring Expression ComprehensionのRefCOCO/+/gといった挑戦的なデータセットに関する大規模な実験は、HCG-LVLMがFlamingo、BLIP-2、MiniGPT-4といった最先端モデルよりも一貫して優れていることを示した。
本モデルでは, より精度が高く, 幻覚を著しく低減し, その階層的設計の有効性を検証し, きめ細かい視覚的理解と正確な接地能力を向上させる。
関連論文リスト
- Unlocking Compositional Control: Self-Supervision for LVLM-Based Image Generation [42.78181795494584]
テキストと画像の合成を大幅に進歩させるために設計された生成モデル。
Hi-SSLVLMは、ユニークな2段階の自己教師型学習戦略を通じて制限に対処する。
実験では、すべてのきめ細かいメトリクスに対してHi-SSLVLMの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-07-05T20:16:32Z) - GLIMPSE: Holistic Cross-Modal Explainability for Large Vision-Language Models [0.0]
GLIMPSEはLVLM出力を最も関連性の高い視覚的エビデンスとテキスト信号に共同で属性付けるモデルに依存しないフレームワークである。
GLIMPSEは、勾配重み付けされた注意、適応層伝播、および関連重み付けされたトークン集合を融合させ、全体的な応答レベル熱マップを生成する。
我々は,LVLMのクロスモーダル属性,トレース推論のダイナミクス,系統的ミスアライメントの分析,幻覚と偏見の診断,透明性の確保に関する詳細な知見を明らかにするための分析的アプローチを実証する。
論文 参考訳(メタデータ) (2025-06-23T18:00:04Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models [30.20915403608803]
Griffonは、大規模な視覚言語モデルのための言語プロンプトローカライゼーションデータセットである。
十分に設計されたパイプラインを通じて、エンドツーエンドでトレーニングされる。
精細なRefCOCOシリーズとFlickr30K Entitiesで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-24T15:35:07Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。