論文の概要: Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching
- arxiv url: http://arxiv.org/abs/2201.06686v1
- Date: Tue, 18 Jan 2022 01:13:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 16:16:33.839919
- Title: Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching
- Title(参考訳): 双方向クロスモーダルマッチングによる未ペア参照表現接地
- Authors: Hengcan Shi, Munawar Hayat, Jianfei Cai
- Abstract要約: 表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
- 参考スコア(独自算出の注目度): 53.27673119360868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring expression grounding is an important and challenging task in
computer vision. To avoid the laborious annotation in conventional referring
grounding, unpaired referring grounding is introduced, where the training data
only contains a number of images and queries without correspondences. The few
existing solutions to unpaired referring grounding are still preliminary, due
to the challenges of learning image-text matching and lack of the top-down
guidance with unpaired data. In this paper, we propose a novel bidirectional
cross-modal matching (BiCM) framework to address these challenges.
Particularly, we design a query-aware attention map (QAM) module that
introduces top-down perspective via generating query-specific visual attention
maps. A cross-modal object matching (COM) module is further introduced, which
exploits the recently emerged image-text matching pretrained model, CLIP, to
predict the target objects from a bottom-up perspective. The top-down and
bottom-up predictions are then integrated via a similarity funsion (SF) module.
We also propose a knowledge adaptation matching (KAM) module that leverages
unpaired training data to adapt pretrained knowledge to the target dataset and
task. Experiments show that our framework outperforms previous works by 6.55%
and 9.94% on two popular grounding datasets.
- Abstract(参考訳): 表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
従来の参照接地における面倒なアノテーションを避けるために、トレーニングデータに対応のない複数の画像やクエリのみを含む未ペア参照接地を導入する。
画像テキストマッチングの課題や、非ペアデータによるトップダウンガイダンスの欠如などにより、未ペア参照グラウンドに対する既存のソリューションはまだ予備的だ。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
特に,クエリ特有の視覚的アテンションマップを生成することで,トップダウン視点を導入するクエリアウェアアテンションマップ(qam)モジュールを設計した。
クロスモーダルオブジェクトマッチング(COM)モジュールがさらに導入され、ボトムアップの観点からターゲットオブジェクトを予測するために、最近登場した画像テキストマッチング事前訓練モデルであるCLIPを利用する。
トップダウンとボトムアップの予測は、類似性ファンジョン(SF)モジュールを介して統合される。
また,事前学習した知識を目標のデータセットやタスクに適応させるために,未学習のトレーニングデータを活用する知識適応マッチング(KAM)モジュールを提案する。
実験によると、我々のフレームワークは、2つの人気のある接地データセットで、以前の作業よりも6.55%と9.94%上回っている。
関連論文リスト
- Decoupling the Class Label and the Target Concept in Machine Unlearning [81.69857244976123]
機械学習の目的は、トレーニングデータの一部を除外した再トレーニングされたモデルを近似するために、トレーニングされたモデルを調整することだ。
過去の研究では、クラスワイド・アンラーニングが対象クラスの知識を忘れることに成功していることが示された。
我々は、TARget-aware Forgetting (TARF) という一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T14:53:30Z) - Learning Cross-view Visual Geo-localization without Ground Truth [48.51859322439286]
CVGL(Cross-View Geo-Localization)は、クエリ画像の地理的位置を対応するGPSタグ付き参照画像とマッチングすることで決定する。
現在の最先端の手法は、ラベル付きペア画像によるトレーニングモデルに依存しており、かなりのアノテーションコストとトレーニングの負担が伴う。
CVGLにおける凍結モデルの適用について,真理ペアラベルを必要とせずに検討する。
論文 参考訳(メタデータ) (2024-03-19T13:01:57Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Causal Scene BERT: Improving object detection by searching for
challenging groups of data [125.40669814080047]
コンピュータビジョンアプリケーションは、物体検出のようなタスクのためにニューラルネットワークでパラメータ化された学習ベースの知覚モジュールに依存している。
これらのモジュールは、トレーニングプロセスに固有のバイアスのため、予想される誤差が低いが、データの非定型的なグループに対して高い誤差を持つことが多い。
本研究の主な貢献は,シミュレートされたシーンに対して因果的介入を行うことにより,前向きにそのようなグループを発見する擬似オートマチック手法である。
論文 参考訳(メタデータ) (2022-02-08T05:14:16Z) - Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。
本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。
上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文 参考訳(メタデータ) (2022-02-01T07:39:04Z) - Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding [44.33411132188231]
visual groundingは、ビジュアルオブジェクトとその言語エンティティ間の対応を構築することを目的としている。
本稿では,オブジェクトの細粒化とエンティティ関係モデリングを組み込んだ,新しい弱教師付き学習手法を提案する。
2つの公開ベンチマークの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2021-03-24T05:03:54Z) - Referring Expression Comprehension: A Survey of Methods and Datasets [20.42495629501261]
Referring Expression comprehension (REC) は、自然言語で表現された参照表現によって記述された画像中の対象物をローカライズすることを目的としている。
まず,問題に対する近代的アプローチを比較検討する。
構造化グラフ表現と相互作用するモジュラーアーキテクチャとグラフベースモデルについて論じる。
論文 参考訳(メタデータ) (2020-07-19T01:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。