論文の概要: Towards Understanding Visual Grounding in Visual Language Models
- arxiv url: http://arxiv.org/abs/2509.10345v2
- Date: Mon, 15 Sep 2025 08:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 13:19:47.999871
- Title: Towards Understanding Visual Grounding in Visual Language Models
- Title(参考訳): ビジュアル言語モデルにおける視覚的グラウンドディングの理解に向けて
- Authors: Georgios Pantazopoulos, Eda B. Özyiğit,
- Abstract要約: ビジュアルグラウンドティング(Visual Grounding)とは、モデルがテキスト記述と一致する視覚入力内の領域を識別する能力である。
現代汎用視覚言語モデル(VLM)研究の重要領域について概観する。
- 参考スコア(独自算出の注目度): 2.553589584067239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding refers to the ability of a model to identify a region within some visual input that matches a textual description. Consequently, a model equipped with visual grounding capabilities can target a wide range of applications in various domains, including referring expression comprehension, answering questions pertinent to fine-grained details in images or videos, caption visual context by explicitly referring to entities, as well as low and high-level control in simulated and real environments. In this survey paper, we review representative works across the key areas of research on modern general-purpose vision language models (VLMs). We first outline the importance of grounding in VLMs, then delineate the core components of the contemporary paradigm for developing grounded models, and examine their practical applications, including benchmarks and evaluation metrics for grounded multimodal generation. We also discuss the multifaceted interrelations among visual grounding, multimodal chain-of-thought, and reasoning in VLMs. Finally, we analyse the challenges inherent to visual grounding and suggest promising directions for future research.
- Abstract(参考訳): ビジュアルグラウンドティング(Visual Grounding)とは、モデルがテキスト記述と一致する視覚入力内の領域を識別する能力である。
これにより、視覚的グラウンド機能を備えたモデルは、表現理解を参照すること、画像やビデオの細部の詳細に関係する質問に答えること、エンティティを明示的に参照することによる視覚的コンテキストのキャプション、シミュレートされた実環境における低レベルかつ高レベルな制御など、様々な領域における幅広いアプリケーションをターゲットにすることができる。
本稿では,現代の汎用視覚言語モデル(VLM)研究の重要領域における代表的研究について概説する。
まず,VLMにおけるグラウンド化の重要性を概説し,その上で,グラウンドドモデル開発における現代パラダイムの中核となる要素を概説し,グラウンドド・マルチモーダル生成のためのベンチマークや評価指標など,その実践的応用について検討する。
また、VLMにおける視覚的接地、多モーダル・チェーン、推論の多面的相互関係についても論じる。
最後に,視覚的接地に固有の課題を分析し,今後の研究に向けて有望な方向性を提案する。
関連論文リスト
- Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。
大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文 参考訳(メタデータ) (2025-05-20T13:47:40Z) - Towards Visual Grounding: A Survey [87.37662490666098]
2021年以降、視覚的な接地は大幅に進歩し、接地事前訓練のような新しい概念が生まれている。
この調査は、初心者と経験豊富な研究者の両方に適しているように設計されており、重要な概念を理解し、最新の研究成果を追跡するための貴重な情報源となっている。
論文 参考訳(メタデータ) (2024-12-28T16:34:35Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - The Revolution of Multimodal Large Language Models: A Survey [46.84953515670248]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティをシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (2024-02-19T19:01:01Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。