論文の概要: Augmenting Zero-Shot Detection Training with Image Labels
- arxiv url: http://arxiv.org/abs/2306.06899v1
- Date: Mon, 12 Jun 2023 07:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:47:48.110944
- Title: Augmenting Zero-Shot Detection Training with Image Labels
- Title(参考訳): 画像ラベルによるゼロショット検出訓練の強化
- Authors: Katharina Kornmeier, Ulla Scheler, Pascal Herrmann
- Abstract要約: ゼロショット検出(ZSD)は実世界のユースケースには不可欠であるが、依然として難しい課題である。
最近の研究では、直接クラスラベルの代わりに埋め込みを出力する検出モデルを用いてZSDを試みている。
我々は、イメージネットの画像ラベルと組み合わせてCLIP埋め込み空間を活用することで、この問題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot detection (ZSD), i.e., detection on classes not seen during
training, is essential for real world detection use-cases, but remains a
difficult task. Recent research attempts ZSD with detection models that output
embeddings instead of direct class labels. To this aim, the output of the
detection model must be aligned to a learned embedding space such as CLIP.
However, this alignment is hindered by detection data sets which are expensive
to produce compared to image classification annotations, and the resulting lack
of category diversity in the training data. We address this challenge by
leveraging the CLIP embedding space in combination with image labels from
ImageNet. Our results show that image labels are able to better align the
detector output to the embedding space and thus have a high potential for ZSD.
Compared to only training on detection data, we see a significant gain by
adding image label data of 3.3 mAP for the 65/15 split on COCO on the unseen
classes, i.e., we more than double the gain of related work.
- Abstract(参考訳): ゼロショット検出(zsd, zero-shot detection)は,実世界検出のユースケースでは必須であるが,依然として難しい課題である。
最近の研究では、直接クラスラベルの代わりに埋め込みを出力する検出モデルでzsdを試みる。
この目的のために、検出モデルの出力は、CLIPのような学習された埋め込み空間に整列する必要がある。
しかし、このアライメントは、画像分類アノテーションと比較してコストがかかる検出データセットや、トレーニングデータにおけるカテゴリの多様性の欠如によって妨げられている。
我々は、イメージネットの画像ラベルと組み合わせてCLIP埋め込み空間を活用することで、この問題に対処する。
以上の結果から,画像ラベルは検出器出力を埋め込み空間に整合させることができ,ZSDの可能性が高いことがわかった。
検出データのみのトレーニングと比較すると,見知らぬクラスにおけるCOCOの65/15分割に対する3.3mAPの画像ラベルデータ,すなわち関連する作業の利得を2倍以上にすることで,大きな利得が得られる。
関連論文リスト
- Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。
このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。
我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-11-20T02:57:35Z) - Task Specific Pretraining with Noisy Labels for Remote Sensing Image Segmentation [18.598405597933752]
自己監督(Self-supervision)は、人造地理空間アノテーションの正確な量を減らすためのリモートセンシングツールを提供する。
本研究では,モデル事前学習のためのノイズの多いセマンティックセグメンテーションマップを提案する。
2つのデータセットから,ノイズラベルを用いたタスク固有教師付き事前学習の有効性が示唆された。
論文 参考訳(メタデータ) (2024-02-25T18:01:42Z) - An Empirical Study of Pseudo-Labeling for Image-based 3D Object
Detection [72.30883544352918]
異なる条件下で,擬似ラベルがベースラインモデルに対して効果的に監視できるかどうかを検討する。
ベルとホイッスルを使わずにKITTI-3Dテストセットの適度なレベルを20.23 APで達成し、ベースラインモデルを6.03 APで改善した。
この研究が、半教師付き環境下で画像に基づく3D検出コミュニティに洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2022-08-15T12:17:46Z) - Semantic-aware Dense Representation Learning for Remote Sensing Image
Change Detection [20.761672725633936]
ディープラーニングに基づく変化検出モデルのトレーニングはラベル付きデータに大きく依存する。
最近のトレンドは、リモートセンシング(RS)データを使用して、教師付きまたは自己教師型学習(SSL)を通じてドメイン内表現を取得することである。
複数のクラスバランス点をサンプリングし,RS画像CDに対する意味認識事前学習を提案する。
論文 参考訳(メタデータ) (2022-05-27T06:08:33Z) - Incorporating Semi-Supervised and Positive-Unlabeled Learning for
Boosting Full Reference Image Quality Assessment [73.61888777504377]
フル参照(FR)画像品質評価(IQA)は、その知覚的差異をプリズム品質基準で測定することにより、歪み画像の視覚的品質を評価する。
ラベルなしデータは、画像劣化または復元プロセスから容易に収集することができ、ラベルなしのトレーニングデータを利用してFR-IQA性能を高めることを奨励する。
本稿では, 半教師付き, 正の未ラベル学習(PU)を用いて, ラベルなしデータを活用し, オフレーヤの悪影響を軽減することを提案する。
論文 参考訳(メタデータ) (2022-04-19T09:10:06Z) - CaSP: Class-agnostic Semi-Supervised Pretraining for Detection and
Segmentation [60.28924281991539]
本稿では,タスク固有性バランスを向上するために,クラス非依存型半教師付き事前学習(CaSP)フレームワークを提案する。
我々は3.6Mの未ラベルデータを用いて、ImageNetで規定されたオブジェクト検出のベースラインよりも4.7%の顕著なパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2021-12-09T14:54:59Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Self-Paced Contrastive Learning for Semi-supervisedMedical Image
Segmentation with Meta-labels [6.349708371894538]
メタラベルアノテーションを扱うために、コントラスト学習を適用することを提案する。
画像エンコーダの事前トレーニングにはメタラベルを使用し、半教師付きトレーニングを標準化する。
3つの異なる医用画像セグメンテーションデータセットの結果から,本手法は数回のスキャンでトレーニングしたモデルの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-07-29T04:30:46Z) - Is Object Detection Necessary for Human-Object Interaction Recognition? [37.61038047282247]
本稿では、物体の位置と人間のポーズの監督を使わずに、画像レベルでの人間と物体の相互作用(HOI)認識を再考する。
既存の検出教師付きアプローチとは対照的に,検出不要なHOI認識と命名する。
論文 参考訳(メタデータ) (2021-07-27T21:15:00Z) - G-SimCLR : Self-Supervised Contrastive Learning with Guided Projection
via Pseudo Labelling [0.8164433158925593]
コンピュータビジョンにおいて、ディープニューラルネットワークは大量のラベル付きデータを持つ教師付き設定において、より良い性能を発揮することが明らかである。
本研究では, 温度スケールクロスエントロピー(NT-Xent)損失関数の正規化により, 同じカテゴリの画像が同じバッチにない方が有益であることを示す。
我々は、ラベルのないデータセットで訓練された復号化オートエンコーダの潜在空間表現を使用し、それらをk平均でクラスタリングして擬似ラベルを得る。
論文 参考訳(メタデータ) (2020-09-25T02:25:37Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。