論文の概要: Towards Visual Grounding: A Survey
- arxiv url: http://arxiv.org/abs/2412.20206v1
- Date: Sat, 28 Dec 2024 16:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:28.712176
- Title: Towards Visual Grounding: A Survey
- Title(参考訳): ビジュアルグラウンド化に向けて: サーベイ
- Authors: Linhui Xiao, Xiaoshan Yang, Xiangyuan Lan, Yaowei Wang, Changsheng Xu,
- Abstract要約: 2021年以降、視覚的な接地は大幅に進歩し、接地事前訓練のような新しい概念が生まれている。
この調査は、初心者と経験豊富な研究者の両方に適しているように設計されており、重要な概念を理解し、最新の研究成果を追跡するための貴重な情報源となっている。
- 参考スコア(独自算出の注目度): 87.37662490666098
- License:
- Abstract: Visual Grounding is also known as Referring Expression Comprehension and Phrase Grounding. It involves localizing a natural number of specific regions within an image based on a given textual description. The objective of this task is to emulate the prevalent referential relationships in social conversations, equipping machines with human-like multimodal comprehension capabilities. Consequently, it has extensive applications in various domains. However, since 2021, visual grounding has witnessed significant advancements, with emerging new concepts such as grounded pre-training, grounding multimodal LLMs, generalized visual grounding, and giga-pixel grounding, which have brought numerous new challenges. In this survey, we initially examine the developmental history of visual grounding and provide an overview of essential background knowledge. We systematically track and summarize the advancements and meticulously organize the various settings in visual grounding, thereby establishing precise definitions of these settings to standardize future research and ensure a fair comparison. Additionally, we delve into several advanced topics and highlight numerous applications of visual grounding. Finally, we outline the challenges confronting visual grounding and propose valuable directions for future research, which may serve as inspiration for subsequent researchers. By extracting common technical details, this survey encompasses the representative works in each subtopic over the past decade. To the best, this paper presents the most comprehensive overview currently available in the field of grounding. This survey is designed to be suitable for both beginners and experienced researchers, serving as an invaluable resource for understanding key concepts and tracking the latest research developments. We keep tracing related works at https://github.com/linhuixiao/Awesome-Visual-Grounding.
- Abstract(参考訳): 視覚的接地は、参照表現理解(Referring Expression Comprehension)やフレーズ接地(Phorase Grounding)とも呼ばれる。
与えられたテキスト記述に基づいて、画像内の特定の領域の自然な数をローカライズする。
本研究の目的は、人間のようなマルチモーダル理解能力を備えた機械を装備し、社会会話における一般的な参照関係をエミュレートすることである。
そのため、諸藩に広く応用されている。
しかし、2021年以降、視覚的接地は大幅に進歩し、接地事前訓練、マルチモーダル LLM の接地、一般化された視覚的接地、ギガピクセル接地といった新しい概念が生まれ、多くの新しい課題を引き起こした。
本調査では、まず、視覚的グラウンドリングの発達史を考察し、本質的な背景知識について概観する。
視覚的接地における様々な設定を体系的に追跡・整理し,これらの設定の正確な定義を確立し,将来の研究を標準化し,公正な比較を確保する。
さらに、いくつかの先進的なトピックを掘り下げ、視覚的グラウンドティングの多くの応用を強調します。
最後に,視覚的基盤に直面する課題について概説し,今後の研究に有用な方向を提案する。
この調査は、一般的な技術的詳細を抽出することによって、過去10年間に各亜熱帯地域の代表的研究を網羅している。
本稿は,現在グラウンド化の分野で利用可能な,最も包括的な概要について述べる。
この調査は、初心者と経験豊富な研究者の両方に適しているように設計されており、重要な概念を理解し、最新の研究成果を追跡するための貴重な情報源となっている。
私たちは関連する作業をhttps://github.com/linhuixiao/Awesome-Visual-Grounding.comで追跡しています。
関連論文リスト
- Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual
Text Processing [4.057550183467041]
視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。
この分野での最近の進歩を包括的かつ多面的に分析する。
論文 参考訳(メタデータ) (2024-02-05T15:13:20Z) - Federated Learning for Generalization, Robustness, Fairness: A Survey
and Benchmark [55.898771405172155]
フェデレートラーニングは、異なる当事者間のプライバシー保護コラボレーションのための有望なパラダイムとして登場した。
我々は,連合学習研究の重要かつ最近の展開を体系的に概観する。
論文 参考訳(メタデータ) (2023-11-12T06:32:30Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - Learning Zero-Shot Multifaceted Visually Grounded Word Embeddingsvia
Multi-Task Training [8.271859911016719]
言語基盤は、言語(例えば言葉)の象徴的な表現を外界の豊かな知覚的知識に結びつけることを目的としている。
本稿では,言語共起統計から得られる抽象的知識を,知覚情報を取得する過程で犠牲にしていると論じる。
論文 参考訳(メタデータ) (2021-04-15T14:49:11Z) - Decoupled Spatial Temporal Graphs for Generic Visual Grounding [120.66884671951237]
この研究は、与えられた表現を満たすすべてのオブジェクトをマイニングすることを目的とした、より一般的な設定、一般的な視覚接地を調査します。
我々は,(1)空間表現と時間表現を分解し,すべての側面の手がかりを収集し,正確な接地を行う,単純かつ効果的なアプローチであるdstgを提案する。
さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。
論文 参考訳(メタデータ) (2021-03-18T11:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。