論文の概要: Detector-Free Weakly Supervised Grounding by Separation
- arxiv url: http://arxiv.org/abs/2104.09829v1
- Date: Tue, 20 Apr 2021 08:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:39:36.963338
- Title: Detector-Free Weakly Supervised Grounding by Separation
- Title(参考訳): 分離によるセンサレス弱監視接地
- Authors: Assaf Arbelle, Sivan Doveh, Amit Alfassy, Joseph Shtok, Guy Lev, Eli
Schwartz, Hilde Kuehne, Hila Barak Levi, Prasanna Sattigeri, Rameswar Panda,
Chun-Fu Chen, Alex Bronstein, Kate Saenko, Shimon Ullman, Raja Giryes,
Rogerio Feris, Leonid Karlinsky
- Abstract要約: Wakly Supervised phrase-Grounding (WSG)は、画像中の任意のテキストフレーズをローカライズするためにデータを使用するタスクを扱う。
本稿では,事前学習した検出器を使わずにWSGを解くための検出器フリーWSG(DF-WSG)を提案する。
我々は、以前のdf-wsg sotaと比較して最大8.5%の精度向上を示す。
- 参考スコア(独自算出の注目度): 76.65699170882036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, there is an abundance of data involving images and surrounding
free-form text weakly corresponding to those images. Weakly Supervised
phrase-Grounding (WSG) deals with the task of using this data to learn to
localize (or to ground) arbitrary text phrases in images without any additional
annotations. However, most recent SotA methods for WSG assume the existence of
a pre-trained object detector, relying on it to produce the ROIs for
localization. In this work, we focus on the task of Detector-Free WSG (DF-WSG)
to solve WSG without relying on a pre-trained detector. We directly learn
everything from the images and associated free-form text pairs, thus
potentially gaining an advantage on the categories unsupported by the detector.
The key idea behind our proposed Grounding by Separation (GbS) method is
synthesizing `text to image-regions' associations by random alpha-blending of
arbitrary image pairs and using the corresponding texts of the pair as
conditions to recover the alpha map from the blended image via a segmentation
network. At test time, this allows using the query phrase as a condition for a
non-blended query image, thus interpreting the test image as a composition of a
region corresponding to the phrase and the complement region. Using this
approach we demonstrate a significant accuracy improvement, of up to $8.5\%$
over previous DF-WSG SotA, for a range of benchmarks including Flickr30K,
Visual Genome, and ReferIt, as well as a significant complementary improvement
(above $7\%$) over the detector-based approaches for WSG.
- Abstract(参考訳): 現在、画像や周囲の自由形テキストを含むデータが、それらの画像に弱い対応を取っている。
Wakly Supervised phrase-Grounding (WSG)は、このデータを使用して任意のテキストフレーズを、追加のアノテーションなしで画像にローカライズ(あるいは接地)することを学ぶタスクを扱う。
しかし、WSG の最近の SotA 法は、事前訓練対象検出器の存在を前提として、位置決めのためのROI を生成する。
本研究では,事前学習した検出器を使わずにWSGを解くために,DF-WSG(De Detector-Free WSG)の課題に焦点を当てる。
我々は画像と関連する自由形式のテキストペアからすべてを直接学習するので、検出器によって囲まれたカテゴリの利点を得られる可能性がある。
提案手法の背景にある重要な考え方は,任意の画像対のランダムなアルファブレンディングによる「テキスト」と画像領域の関連付けを合成し,そのペアの対応するテキストを条件として使用して,混合画像からセグメンテーションネットワークを介してアルファマップを復元することである。
テスト時には、クエリ句を非バーテッドクエリ画像の条件として使用することができ、テスト画像をフレーズと補完領域に対応する領域の合成として解釈することができる。
このアプローチを用いることで、Flickr30K、Visual Genome、ReferItを含む様々なベンチマークに対して、以前のDF-WSG SotAよりも最大8.5\%の大幅な精度向上と、WSGの検出器ベースのアプローチに対する大幅な補完的改善($7\%以上)を示す。
関連論文リスト
- Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Using Text to Teach Image Retrieval [47.72498265721957]
ニューラルネットワークを用いて学習した画像の特徴空間をグラフとして表現するために,画像多様体の概念に基づいて構築する。
我々は、幾何学的に整列したテキストで多様体のサンプルを増補し、大量の文を使って画像について教える。
実験結果から, 結合埋め込み多様体は頑健な表現であり, 画像検索を行うためのより良い基礎となることが示唆された。
論文 参考訳(メタデータ) (2020-11-19T16:09:14Z) - Improving Weakly Supervised Visual Grounding by Contrastive Knowledge
Distillation [55.198596946371126]
本稿では,領域句と画像文マッチングの両方を考慮したコントラスト学習フレームワークを提案する。
我々の中心となる革新は、画像文スコア関数を更に構築した領域句スコア関数の学習である。
このようなスコア関数の設計は、テスト時のオブジェクト検出の必要性を排除し、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-07-03T22:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。