論文の概要: What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding
without Text Inputs
- arxiv url: http://arxiv.org/abs/2206.09358v1
- Date: Sun, 19 Jun 2022 09:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 17:04:28.699728
- Title: What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding
without Text Inputs
- Title(参考訳): テキスト入力なしのオープンワールド・フレーズ・ギャラリングについて
- Authors: Tal Shaharabany, Yoad Tewel and Lior Wolf
- Abstract要約: 入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。
これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。
本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
- 参考スコア(独自算出の注目度): 82.93345261434943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an input image, and nothing else, our method returns the bounding boxes
of objects in the image and phrases that describe the objects. This is achieved
within an open world paradigm, in which the objects in the input image may not
have been encountered during the training of the localization mechanism.
Moreover, training takes place in a weakly supervised setting, where no
bounding boxes are provided. To achieve this, our method combines two
pre-trained networks: the CLIP image-to-text matching score and the BLIP image
captioning tool. Training takes place on COCO images and their captions and is
based on CLIP. Then, during inference, BLIP is used to generate a hypothesis
regarding various regions of the current image. Our work generalizes weakly
supervised segmentation and phrase grounding and is shown empirically to
outperform the state of the art in both domains. It also shows very convincing
results in the novel task of weakly-supervised open-world purely visual
phrase-grounding presented in our work. For example, on the datasets used for
benchmarking phrase-grounding, our method results in a very modest degradation
in comparison to methods that employ human captions as an additional input. Our
code is available at https://github.com/talshaharabany/what-is-where-by-looking
and a live demo can be found at
https://talshaharabany/what-is-where-by-looking.
- Abstract(参考訳): 入力画像が与えられ、その他何も与えられません。このメソッドは、画像内のオブジェクトのバウンディングボックスと、オブジェクトを記述する句を返します。
これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。
さらに、トレーニングは、バウンディングボックスが提供されない、弱い監督された設定で行われる。
そこで本手法では,CLIP画像対テキストマッチングスコアとBLIP画像キャプションツールの2つの事前学習ネットワークを組み合わせた。
訓練はCOCOイメージとそのキャプションで行われ、CLIPに基づいている。
そして、推論中にBLIPを使用して、現在の画像の様々な領域に関する仮説を生成する。
本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
また,我々の研究で提示されたオープンワールドの純粋に視覚的なフレーズ接頭辞の弱い教師による新しいタスクにおいて,非常に説得力のある結果を示す。
例えば、フレーズグラウンドのベンチマークに使用するデータセットでは、人間のキャプションを付加的な入力として利用する手法と比較して、非常に緩やかに劣化する。
私たちのコードはhttps://github.com/talshaharabany/what-is-where-lookで公開されています。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Neural Implicit Vision-Language Feature Fields [40.248658511361015]
ゼロショットボリュームのオープン語彙セマンティックシーンセグメンテーション法を提案する。
本手法は,視覚言語モデルからニューラル暗黙表現に画像特徴を融合させることができるという知見に基づいている。
本研究では,本手法が実世界のノイズの多いデータ上で動作し,テキストのプロンプトに適応してリアルタイムにリアルタイムにリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2023-03-20T09:38:09Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Adapting CLIP For Phrase Localization Without Further Training [30.467802103692378]
画像とキャプションのペアで事前学習したコントラスト言語ビジョンモデルであるCLIPを活用することを提案する。
我々は高分解能空間特徴写像を生成するためにCLIPを適用した。
フレーズローカライズのための手法は、人間のアノテーションや追加の訓練を必要としない。
論文 参考訳(メタデータ) (2022-04-07T17:59:38Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。