論文の概要: GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2312.15043v1
- Date: Fri, 22 Dec 2023 20:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:15:05.434001
- Title: GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection
- Title(参考訳): GroundVLP:視覚言語事前学習とオープン語彙オブジェクト検出によるゼロショット視覚グラウンドのハーネス化
- Authors: Haozhan Shen, Tiancheng Zhao, Mingwei Zhu, Jianwei Yin
- Abstract要約: 画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
- 参考スコア(独自算出の注目度): 24.48128633414131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding, a crucial vision-language task involving the understanding
of the visual context based on the query expression, necessitates the model to
capture the interactions between objects, as well as various spatial and
attribute information. However, the annotation data of visual grounding task is
limited due to its time-consuming and labor-intensive annotation process,
resulting in the trained models being constrained from generalizing its
capability to a broader domain. To address this challenge, we propose
GroundVLP, a simple yet effective zero-shot method that harnesses visual
grounding ability from the existing models trained from image-text pairs and
pure object detection data, both of which are more conveniently obtainable and
offer a broader domain compared to visual grounding annotation data. GroundVLP
proposes a fusion mechanism that combines the heatmap from GradCAM and the
object proposals of open-vocabulary detectors. We demonstrate that the proposed
method significantly outperforms other zero-shot methods on RefCOCO/+/g
datasets, surpassing prior zero-shot state-of-the-art by approximately 28\% on
the test split of RefCOCO and RefCOCO+. Furthermore, GroundVLP performs
comparably to or even better than some non-VLP-based supervised models on the
Flickr30k entities dataset. Our code is available at
https://github.com/om-ai-lab/GroundVLP.
- Abstract(参考訳): ビジュアルグラウンド(Visual Grounding)は、クエリ表現に基づく視覚的コンテキストの理解を含む重要な視覚言語タスクであり、オブジェクト間の相互作用をキャプチャするモデルと、様々な空間的および属性情報を必要とする。
しかし、視覚的接地作業のアノテーションデータは、その時間と労働集約的なアノテーションプロセスによって制限され、訓練されたモデルは、その能力をより広い領域に一般化することから制約される。
この課題に対処するために,画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的接地能力を活用する,シンプルで効果的なゼロショット手法であるGroundVLPを提案する。
GroundVLPはGradCAMのヒートマップとオープン語彙検出器のオブジェクト提案を組み合わせた融合機構を提案する。
提案手法は,RefCOCOとRefCOCO+のテスト分割において,従来のゼロショット・オブ・ザ・アートを約28倍上回り,RefCOCO//gデータセット上の他のゼロショット・メソッドを著しく上回ることを示す。
さらに、GroundVLPはFlickr30kエンティティデータセット上のいくつかの非VLPベースの教師付きモデルと互換性があるか、それ以上に機能する。
私たちのコードはhttps://github.com/om-ai-lab/GroundVLPで利用可能です。
関連論文リスト
- Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Open-Vocabulary Camouflaged Object Segmentation [71.82644727907146]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入し,大規模複合シーンデータセット(textbfOVCamo)を構築した。
パラメータ固定CLIPに付加された強力な単一段開語彙下線下線下線下線下線下線下線下線下線を構築。
クラス意味知識の指導とエッジと奥行きからの視覚構造的手がかりの補足を統合する
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual
Grounders [31.371338262371122]
VGDiffZeroは、テキストから画像への拡散モデルに基づくゼロショットのビジュアルグラウンドティングフレームワークである。
VGDiffZeroはゼロショット映像のグラウンド化において高い性能を示す。
論文 参考訳(メタデータ) (2023-09-03T11:32:28Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding [44.33411132188231]
visual groundingは、ビジュアルオブジェクトとその言語エンティティ間の対応を構築することを目的としている。
本稿では,オブジェクトの細粒化とエンティティ関係モデリングを組み込んだ,新しい弱教師付き学習手法を提案する。
2つの公開ベンチマークの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2021-03-24T05:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。