論文の概要: Synthesizing the Unseen for Zero-shot Object Detection
- arxiv url: http://arxiv.org/abs/2010.09425v1
- Date: Mon, 19 Oct 2020 12:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 22:07:06.256423
- Title: Synthesizing the Unseen for Zero-shot Object Detection
- Title(参考訳): ゼロショット物体検出のためのunseen合成
- Authors: Nasir Hayat, Munawar Hayat, Shafin Rahman, Salman Khan, Syed Waqas
Zamir, Fahad Shahbaz Khan
- Abstract要約: そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
- 参考スコア(独自算出の注目度): 72.38031440014463
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The existing zero-shot detection approaches project visual features to the
semantic domain for seen objects, hoping to map unseen objects to their
corresponding semantics during inference. However, since the unseen objects are
never visualized during training, the detection model is skewed towards seen
content, thereby labeling unseen as background or a seen class. In this work,
we propose to synthesize visual features for unseen classes, so that the model
learns both seen and unseen objects in the visual domain. Consequently, the
major challenge becomes, how to accurately synthesize unseen objects merely
using their class semantics? Towards this ambitious goal, we propose a novel
generative model that uses class-semantics to not only generate the features
but also to discriminatively separate them. Further, using a unified model, we
ensure the synthesized features have high diversity that represents the
intra-class differences and variable localization precision in the detected
bounding boxes. We test our approach on three object detection benchmarks,
PASCAL VOC, MSCOCO, and ILSVRC detection, under both conventional and
generalized settings, showing impressive gains over the state-of-the-art
methods. Our codes are available at
https://github.com/nasir6/zero_shot_detection.
- Abstract(参考訳): 既存のゼロショット検出アプローチは、見えないオブジェクトを推論中に対応するセマンティクスにマッピングしたいと願って、視覚的特徴を目に見えないオブジェクトのセマンティクスドメインに投影する。
しかしながら、未検出のオブジェクトはトレーニング中には可視化されないため、検出モデルは参照されたコンテンツに歪んで、未検出のオブジェクトを背景または参照されたクラスとしてラベル付けする。
そこで本研究では,視覚領域における視対象と視対象の両方を学習するために,視対象クラスの視覚特徴を合成する手法を提案する。
その結果、大きな課題は、クラスセマンティクスだけを使用して、正確に見えないオブジェクトを合成する方法である。
この野心的な目標に向けて,クラスセマンティクスを用いて特徴を生成するだけでなく,特徴を識別的に分離する新たな生成モデルを提案する。
さらに, 統一モデルを用いて, 検出された境界ボックス内のクラス内差異と可変局在精度を表す高い多様性を有することを検証した。
従来の手法と一般化した手法の両方において,PASCAL VOC, MSCOCO, ILSVRC検出という3つのオブジェクト検出ベンチマークを用いて本手法を検証した。
私たちのコードはhttps://github.com/nasir6/zero_shot_detectionで利用可能です。
関連論文リスト
- Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models [4.157013247909771]
ボトムアップセグメンテーション(SAM)、オブジェクト検出(Detic)、セマンティックセグメンテーション(MaskFormer)の最先端モデルを活用することを提案する。
室内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るための,コスト効率の高いラベリング手法を開発することを目的とする。
提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
論文 参考訳(メタデータ) (2023-11-17T21:58:26Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Resolving Semantic Confusions for Improved Zero-Shot Detection [6.72910827751713]
本稿では,クラス間の相違度を認識する三重項損失を考慮した生成モデルを提案する。
クラスの生成した視覚的サンプルが、自身のセマンティクスに高度に対応していることを保証するために、サイクリック一貫性損失も実施される。
論文 参考訳(メタデータ) (2022-12-12T18:11:48Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Disentangling Visual Embeddings for Attributes and Objects [38.27308243429424]
オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-17T17:59:36Z) - Robust Region Feature Synthesizer for Zero-Shot Object Detection [87.79902339984142]
我々は,クラス内セマンティック・ディバージングコンポーネントとクラス間構造保存コンポーネントを含む,新しいゼロショットオブジェクト検出フレームワークを構築した。
リモートセンシング画像においてゼロショット物体検出を行う最初の研究である。
論文 参考訳(メタデータ) (2022-01-01T03:09:15Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。