論文の概要: Towards Visual Grounding: A Survey
- arxiv url: http://arxiv.org/abs/2412.20206v2
- Date: Mon, 10 Nov 2025 05:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.305674
- Title: Towards Visual Grounding: A Survey
- Title(参考訳): ビジュアルグラウンド化に向けて: サーベイ
- Authors: Linhui Xiao, Xiaoshan Yang, Xiangyuan Lan, Yaowei Wang, Changsheng Xu,
- Abstract要約: Referring Expression や Phrase Grounding としても知られる Visual Grounding は、与えられた式テキストに基づいてイメージ内の特定の領域をグラウンドすることを目的としている。
2021年以降、視覚的な接地は大幅に進歩し、接地事前訓練のような新しい概念が生まれている。
本稿では,視覚的グラウンドリングの分野で現在利用可能な,最も包括的な概要を示す。
- 参考スコア(独自算出の注目度): 99.0950608237702
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Grounding, also known as Referring Expression Comprehension and Phrase Grounding, aims to ground the specific region(s) within the image(s) based on the given expression text. This task simulates the common referential relationships between visual and linguistic modalities, enabling machines to develop human-like multimodal comprehension capabilities. Consequently, it has extensive applications in various domains. However, since 2021, visual grounding has witnessed significant advancements, with emerging new concepts such as grounded pre-training, grounding multimodal LLMs, generalized visual grounding, and giga-pixel grounding, which have brought numerous new challenges. In this survey, we first examine the developmental history of visual grounding and provide an overview of essential background knowledge. We systematically track and summarize the advancements, and then meticulously define and organize the various settings to standardize future research and ensure a fair comparison. Additionally, we delve into numerous related datasets and applications, and highlight several advanced topics. Finally, we outline the challenges confronting visual grounding and propose valuable directions for future research, which may serve as inspiration for subsequent researchers. By extracting common technical details, this survey encompasses the representative work in each subtopic over the past decade. To the best of our knowledge, this paper represents the most comprehensive overview currently available in the field of visual grounding. This survey is designed to be suitable for both beginners and experienced researchers, serving as an invaluable resource for understanding key concepts and tracking the latest research developments. We keep tracing related work at https://github.com/linhuixiao/Awesome-Visual-Grounding.
- Abstract(参考訳): Referring Expression Comprehension や Phrase Grounding としても知られる Visual Grounding は、与えられた表現テキストに基づいて画像内の特定の領域をグラウンドすることを目的としている。
このタスクは、視覚と言語間の共通的な参照関係をシミュレートし、機械が人間のようなマルチモーダル理解能力を開発することを可能にする。
そのため、諸藩に広く応用されている。
しかし、2021年以降、視覚的接地は大幅に進歩し、接地事前訓練、マルチモーダル LLM の接地、一般化された視覚的接地、ギガピクセル接地といった新しい概念が生まれ、多くの新しい課題を引き起こした。
本調査では,まず視覚的グラウンドリングの発達史を考察し,本質的な背景知識について概観する。
我々は,その進歩を体系的に追跡・要約し,その後,今後の研究を標準化し,公正な比較を確保するために,様々な設定を慎重に定義・整理する。
さらに、多くの関連するデータセットやアプリケーションを調べ、いくつかの高度なトピックを強調します。
最後に,視覚的基盤に直面する課題について概説し,今後の研究に有用な方向を提案する。
この調査は、一般的な技術的詳細を抽出することによって、過去10年間の各亜熱帯地域の代表的研究を網羅している。
我々の知る限り、この論文は視覚的グラウンドリングの分野で現在利用可能な最も包括的な概要を示すものである。
この調査は、初心者と経験豊富な研究者の両方に適しているように設計されており、重要な概念を理解し、最新の研究成果を追跡するための貴重な情報源となっている。
関連作業はhttps://github.com/linhuixiao/Awesome-Visual-Grounding.comで追跡しています。
関連論文リスト
- Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual
Text Processing [4.057550183467041]
視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。
この分野での最近の進歩を包括的かつ多面的に分析する。
論文 参考訳(メタデータ) (2024-02-05T15:13:20Z) - Federated Learning for Generalization, Robustness, Fairness: A Survey
and Benchmark [55.898771405172155]
フェデレートラーニングは、異なる当事者間のプライバシー保護コラボレーションのための有望なパラダイムとして登場した。
我々は,連合学習研究の重要かつ最近の展開を体系的に概観する。
論文 参考訳(メタデータ) (2023-11-12T06:32:30Z) - A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future [6.4105103117533755]
分類学は、まず様々なタスクと方法論を整理するために開発された。
提案した分類法は、オブジェクト検出、セマンティック/インスタンス/パノプティクスのセグメンテーション、3Dとビデオの理解など、さまざまなタスクにまたがって普遍的である。
論文 参考訳(メタデータ) (2023-07-18T12:52:49Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - Learning Zero-Shot Multifaceted Visually Grounded Word Embeddingsvia
Multi-Task Training [8.271859911016719]
言語基盤は、言語(例えば言葉)の象徴的な表現を外界の豊かな知覚的知識に結びつけることを目的としている。
本稿では,言語共起統計から得られる抽象的知識を,知覚情報を取得する過程で犠牲にしていると論じる。
論文 参考訳(メタデータ) (2021-04-15T14:49:11Z) - Decoupled Spatial Temporal Graphs for Generic Visual Grounding [120.66884671951237]
この研究は、与えられた表現を満たすすべてのオブジェクトをマイニングすることを目的とした、より一般的な設定、一般的な視覚接地を調査します。
我々は,(1)空間表現と時間表現を分解し,すべての側面の手がかりを収集し,正確な接地を行う,単純かつ効果的なアプローチであるdstgを提案する。
さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。
論文 参考訳(メタデータ) (2021-03-18T11:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。