論文の概要: Read, look and detect: Bounding box annotation from image-caption pairs
- arxiv url: http://arxiv.org/abs/2306.06149v1
- Date: Fri, 9 Jun 2023 12:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:50:07.312904
- Title: Read, look and detect: Bounding box annotation from image-caption pairs
- Title(参考訳): read, look and detection: イメージキャプチャペアからのバウンディングボックスアノテーション
- Authors: Eduardo Hugo Sanchez
- Abstract要約: 本稿では,画像中のオブジェクトの特定とラベル付けを行う手法について,より弱い監督方法であるイメージ・キャプション・ペアを用いて提案する。
Flickr30k COCOを用いたフレーズグラウンドで47.51%のリコール@1スコアを達成し,提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 2.0305676256390934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various methods have been proposed to detect objects while reducing the cost
of data annotation. For instance, weakly supervised object detection (WSOD)
methods rely only on image-level annotations during training. Unfortunately,
data annotation remains expensive since annotators must provide the categories
describing the content of each image and labeling is restricted to a fixed set
of categories. In this paper, we propose a method to locate and label objects
in an image by using a form of weaker supervision: image-caption pairs. By
leveraging recent advances in vision-language (VL) models and self-supervised
vision transformers (ViTs), our method is able to perform phrase grounding and
object detection in a weakly supervised manner. Our experiments demonstrate the
effectiveness of our approach by achieving a 47.51% recall@1 score in phrase
grounding on Flickr30k Entities and establishing a new state-of-the-art in
object detection by achieving 21.1 mAP 50 and 10.5 mAP 50:95 on MS COCO when
exclusively relying on image-caption pairs.
- Abstract(参考訳): データアノテーションのコストを低減しつつオブジェクトを検出する様々な方法が提案されている。
例えば、弱い教師付きオブジェクト検出(WSOD)メソッドは、トレーニング中に画像レベルのアノテーションにのみ依存する。
残念なことに、アノテータは各画像の内容を記述するカテゴリを提供しなければならず、ラベル付けは固定されたカテゴリに制限されるため、データアノテーションは高価である。
本稿では,より弱い監督の形式であるイメージ・キャプチャペアを用いて,画像中のオブジェクトの同定とラベル付けを行う手法を提案する。
近年の視覚言語モデル(VL)と自己監督型視覚変換器(ViT)の進歩を利用して, フレーズグラウンドとオブジェクト検出を弱教師付き方式で行うことができる。
Flickr30k Entitiesをベースとした47.51%のリコール@1スコアを達成し,21.1 mAP 50 と 10.5 mAP 50:95 を MS COCO 上で達成し,オブジェクト検出の最先端性を確立した。
関連論文リスト
- Search and Detect: Training-Free Long Tail Object Detection via Web-Image Retrieval [46.944526377710346]
トレーニング不要なロングテールオブジェクト検出フレームワークであるSearchDetを紹介する。
提案手法は単純かつ無訓練であるが,ODinWでは48.7% mAP,LVISでは59.1% mAPの改善が達成されている。
論文 参考訳(メタデータ) (2024-09-26T05:14:19Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Weakly-Supervised Camouflaged Object Detection with Scribble Annotations [34.78171563557932]
そこで本研究では,スクリブルアノテーションを指標としたCOD法を提案する。
アノテーション付きカモフラージュオブジェクトは、画像ごとに60分かかる。
本稿では,異なる画像に対する信頼性の高い一貫性を実現するための信頼性の高いクロスビューの損失と,単一の予測マップ内での一貫性を維持するためのソフトな内部ビューの損失の2つの部分からなる新しい一貫性の損失を提案する。
論文 参考訳(メタデータ) (2022-07-28T13:40:07Z) - Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition [83.93422034664184]
未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。
既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。
画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T08:02:23Z) - Is Object Detection Necessary for Human-Object Interaction Recognition? [37.61038047282247]
本稿では、物体の位置と人間のポーズの監督を使わずに、画像レベルでの人間と物体の相互作用(HOI)認識を再考する。
既存の検出教師付きアプローチとは対照的に,検出不要なHOI認識と命名する。
論文 参考訳(メタデータ) (2021-07-27T21:15:00Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Cross-Supervised Object Detection [42.783400918552765]
完全ラベル付きベースカテゴリから学習した知識を活用して、新しいカテゴリの弱いラベル付き画像からより良いオブジェクト検出器を構築する方法を示す。
本稿では,インスタンスレベルのアノテーションから学習した検出ヘッドと,画像レベルのアノテーションから学習した認識ヘッドを組み合わせた統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-26T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。