論文の概要: GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2312.15043v1
- Date: Fri, 22 Dec 2023 20:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:15:05.434001
- Title: GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection
- Title(参考訳): GroundVLP:視覚言語事前学習とオープン語彙オブジェクト検出によるゼロショット視覚グラウンドのハーネス化
- Authors: Haozhan Shen, Tiancheng Zhao, Mingwei Zhu, Jianwei Yin
- Abstract要約: 画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
- 参考スコア(独自算出の注目度): 24.48128633414131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding, a crucial vision-language task involving the understanding
of the visual context based on the query expression, necessitates the model to
capture the interactions between objects, as well as various spatial and
attribute information. However, the annotation data of visual grounding task is
limited due to its time-consuming and labor-intensive annotation process,
resulting in the trained models being constrained from generalizing its
capability to a broader domain. To address this challenge, we propose
GroundVLP, a simple yet effective zero-shot method that harnesses visual
grounding ability from the existing models trained from image-text pairs and
pure object detection data, both of which are more conveniently obtainable and
offer a broader domain compared to visual grounding annotation data. GroundVLP
proposes a fusion mechanism that combines the heatmap from GradCAM and the
object proposals of open-vocabulary detectors. We demonstrate that the proposed
method significantly outperforms other zero-shot methods on RefCOCO/+/g
datasets, surpassing prior zero-shot state-of-the-art by approximately 28\% on
the test split of RefCOCO and RefCOCO+. Furthermore, GroundVLP performs
comparably to or even better than some non-VLP-based supervised models on the
Flickr30k entities dataset. Our code is available at
https://github.com/om-ai-lab/GroundVLP.
- Abstract(参考訳): ビジュアルグラウンド(Visual Grounding)は、クエリ表現に基づく視覚的コンテキストの理解を含む重要な視覚言語タスクであり、オブジェクト間の相互作用をキャプチャするモデルと、様々な空間的および属性情報を必要とする。
しかし、視覚的接地作業のアノテーションデータは、その時間と労働集約的なアノテーションプロセスによって制限され、訓練されたモデルは、その能力をより広い領域に一般化することから制約される。
この課題に対処するために,画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的接地能力を活用する,シンプルで効果的なゼロショット手法であるGroundVLPを提案する。
GroundVLPはGradCAMのヒートマップとオープン語彙検出器のオブジェクト提案を組み合わせた融合機構を提案する。
提案手法は,RefCOCOとRefCOCO+のテスト分割において,従来のゼロショット・オブ・ザ・アートを約28倍上回り,RefCOCO//gデータセット上の他のゼロショット・メソッドを著しく上回ることを示す。
さらに、GroundVLPはFlickr30kエンティティデータセット上のいくつかの非VLPベースの教師付きモデルと互換性があるか、それ以上に機能する。
私たちのコードはhttps://github.com/om-ai-lab/GroundVLPで利用可能です。
関連論文リスト
- Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual
Grounders [31.371338262371122]
VGDiffZeroは、テキストから画像への拡散モデルに基づくゼロショットのビジュアルグラウンドティングフレームワークである。
VGDiffZeroはゼロショット映像のグラウンド化において高い性能を示す。
論文 参考訳(メタデータ) (2023-09-03T11:32:28Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding [44.33411132188231]
visual groundingは、ビジュアルオブジェクトとその言語エンティティ間の対応を構築することを目的としている。
本稿では,オブジェクトの細粒化とエンティティ関係モデリングを組み込んだ,新しい弱教師付き学習手法を提案する。
2つの公開ベンチマークの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2021-03-24T05:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。