論文の概要: Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning
- arxiv url: http://arxiv.org/abs/2205.00272v1
- Date: Sat, 30 Apr 2022 13:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 15:20:33.154766
- Title: Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning
- Title(参考訳): 視覚言語検証と反復推論による視覚接地の改善
- Authors: Li Yang, Yan Xu, Chunfeng Yuan, Wei Liu, Bing Li, Weiming Hu
- Abstract要約: 正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
- 参考スコア(独自算出の注目度): 42.29650807349636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding is a task to locate the target indicated by a natural
language expression. Existing methods extend the generic object detection
framework to this problem. They base the visual grounding on the features from
pre-generated proposals or anchors, and fuse these features with the text
embeddings to locate the target mentioned by the text. However, modeling the
visual features from these predefined locations may fail to fully exploit the
visual context and attribute information in the text query, which limits their
performance. In this paper, we propose a transformer-based framework for
accurate visual grounding by establishing text-conditioned discriminative
features and performing multi-stage cross-modal reasoning. Specifically, we
develop a visual-linguistic verification module to focus the visual features on
regions relevant to the textual descriptions while suppressing the unrelated
areas. A language-guided feature encoder is also devised to aggregate the
visual contexts of the target object to improve the object's distinctiveness.
To retrieve the target from the encoded visual features, we further propose a
multi-stage cross-modal decoder to iteratively speculate on the correlations
between the image and text for accurate target localization. Extensive
experiments on five widely used datasets validate the efficacy of our proposed
components and demonstrate state-of-the-art performance. Our code is public at
https://github.com/yangli18/VLTVG.
- Abstract(参考訳): ビジュアルグラウンドティングは、自然言語表現によって示されるターゲットを特定するタスクである。
既存のメソッドはジェネリックオブジェクト検出フレームワークをこの問題に拡張している。
それらは、事前に生成された提案やアンカーの機能をベースにして、これらの機能とテキスト埋め込みを融合して、テキストで言及されたターゲットを見つける。
しかし、事前に定義された場所から視覚的特徴をモデル化することは、テキストクエリの視覚的コンテキストと属性情報を十分に活用することができず、パフォーマンスが制限される。
本稿では,テキストコンディショニングによる判別機能を確立し,多段クロスモーダル推論を行うことにより,高精度な視覚グラウンディングを実現するトランスフォーマティブフレームワークを提案する。
具体的には,非関連領域を抑圧しながら,テキスト記述に関連する領域に視覚特徴を集中させる視覚言語的検証モジュールを開発した。
言語誘導機能エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
符号化された視覚特徴からターゲットを抽出するために,画像とテキストの相関関係を反復的に推測する多段クロスモーダルデコーダを提案する。
広く使用されている5つのデータセットに関する広範な実験により、提案するコンポーネントの有効性が検証され、最先端のパフォーマンスが実証された。
私たちのコードはhttps://github.com/yangli18/vltvgで公開しています。
関連論文リスト
- LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Direction-Oriented Visual-semantic Embedding Model for Remote Sensing
Image-text Retrieval [8.00022369501487]
本稿では,視覚と言語の関係を考察するため,方向指向型ビジュアル・セマンティック・エンベディング・モデル(DOVE)を提案する。
我々の目指すのは、潜在空間における視覚的およびテキスト的表現を極力近く、冗長性のない地域視覚表現に向けることである。
我々は、単一の視覚的依存を減らすためにグローバルな視覚意味制約を利用し、最終的な視覚的およびテキスト的表現の外部制約として機能する。
論文 参考訳(メタデータ) (2023-10-12T12:28:47Z) - CiteTracker: Correlating Image and Text for Visual Tracking [114.48653709286629]
我々は、画像とテキストを接続することで、視覚的トラッキングにおけるターゲットモデリングと推論を強化するCiteTrackerを提案する。
具体的には、ターゲット画像パッチを記述テキストに変換するテキスト生成モジュールを開発する。
次に、注目に基づく相関モジュールを用いて対象記述と検索画像を関連付け、対象状態参照のための相関特徴を生成する。
論文 参考訳(メタデータ) (2023-08-22T09:53:12Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Bear the Query in Mind: Visual Grounding with Query-conditioned
Convolution [26.523051615516742]
本稿では,クエリ情報を畳み込みカーネルの生成に組み込むことで,クエリ対応の視覚的特徴を抽出するクエリ条件付き畳み込みモジュール(QCM)を提案する。
提案手法は,3つの一般的な視覚的グラウンドデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-06-18T04:26:39Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural
Language [36.319953919737245]
自然言語による人物検索は、与えられたテキスト記述にマッチする大規模な画像プールにおいて、特定の人物を検索することを目的としている。
そこで本稿では,特定の属性句を対応する視覚領域に接地できる属性適応型視点を提案する。
私たちは、堅牢な機能学習によってパフォーマンスが向上するだけでなく、成功も達成しています。
論文 参考訳(メタデータ) (2020-05-15T02:22:28Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。