論文の概要: Weakly Supervised Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2312.12437v1
- Date: Tue, 19 Dec 2023 18:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 14:30:41.679552
- Title: Weakly Supervised Open-Vocabulary Object Detection
- Title(参考訳): 弱教師付きオープン語彙オブジェクト検出
- Authors: Jianghang Lin, Yunhang Shen, Bingquan Wang, Shaohui Lin, Ke Li,
Liujuan Cao
- Abstract要約: 本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
- 参考スコア(独自算出の注目度): 31.605276665964787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite weakly supervised object detection (WSOD) being a promising step
toward evading strong instance-level annotations, its capability is confined to
closed-set categories within a single training dataset. In this paper, we
propose a novel weakly supervised open-vocabulary object detection framework,
namely WSOVOD, to extend traditional WSOD to detect novel concepts and utilize
diverse datasets with only image-level annotations. To achieve this, we explore
three vital strategies, including dataset-level feature adaptation, image-level
salient object localization, and region-level vision-language alignment. First,
we perform data-aware feature extraction to produce an input-conditional
coefficient, which is leveraged into dataset attribute prototypes to identify
dataset bias and help achieve cross-dataset generalization. Second, a
customized location-oriented weakly supervised region proposal network is
proposed to utilize high-level semantic layouts from the category-agnostic
segment anything model to distinguish object boundaries. Lastly, we introduce a
proposal-concept synchronized multiple-instance network, i.e., object mining
and refinement with visual-semantic alignment, to discover objects matched to
the text embeddings of concepts. Extensive experiments on Pascal VOC and MS
COCO demonstrate that the proposed WSOVOD achieves new state-of-the-art
compared with previous WSOD methods in both close-set object localization and
detection tasks. Meanwhile, WSOVOD enables cross-dataset and open-vocabulary
learning to achieve on-par or even better performance than well-established
fully-supervised open-vocabulary object detection (FSOVOD).
- Abstract(参考訳): 弱い教師付きオブジェクト検出(WSOD)は、強力なインスタンスレベルのアノテーションを避けるための有望なステップであるが、その能力は単一のトレーニングデータセット内のクローズドセットカテゴリに限定されている。
本稿では、従来のWSODを拡張して新しい概念を検出し、画像レベルのアノテーションのみを用いた多様なデータセットを活用するための、弱制御型オープン語彙オブジェクト検出フレームワークであるWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
まず、データセットのバイアスを識別し、データセット間の一般化を実現するために、データセット属性のプロトタイプに活用される入力条件係数を生成する。
第二に, カテゴリ非依存セグメントモデルから高レベルな意味的レイアウトを利用するために, 位置指向の弱教師付き領域提案ネットワークを提案する。
最後に,概念のテキスト埋め込みに適合するオブジェクトを発見するために,オブジェクトマイニングとビジュアル・セマンティックアライメントによる改善を行う提案概念同期マルチインスタンスネットワークを提案する。
Pascal VOCとMS COCOの大規模な実験により、提案したWSOVODは、近接したオブジェクトのローカライゼーションと検出タスクの両方において、従来のWSOD法と比較して新しい最先端を実現することが示された。
一方、WSOVODは、完全教師付きオープンボキャブラリオブジェクト検出(FSOVOD)よりも、クロスデータセットおよびオープンボキャブラリ学習をオンパーまたはそれ以上の性能を達成することができる。
関連論文リスト
- Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。
提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-26T06:34:48Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Improved Region Proposal Network for Enhanced Few-Shot Object Detection [23.871860648919593]
Few-shot Object Detection (FSOD) メソッドは、古典的なオブジェクト検出手法の限界に対する解決策として登場した。
FSODトレーニング段階において,未ラベルの新規物体を正のサンプルとして検出し,利用するための半教師付きアルゴリズムを開発した。
地域提案ネットワーク(RPN)の階層的サンプリング戦略の改善により,大規模オブジェクトに対するオブジェクト検出モデルの認識が向上する。
論文 参考訳(メタデータ) (2023-08-15T02:35:59Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z) - Personal Fixations-Based Object Segmentation with Object Localization
and Boundary Preservation [60.41628937597989]
我々はPFOS(Personal Fixations-based Object)に着目し,過去の研究の課題に対処する。
視線オブジェクトをセグメント化するオブジェクトローカリゼーションと境界保存(OLBP)に基づく新しいネットワークを提案する。
OLBPは複数のタイプの深い監督の混合されたボトムアップおよびトップダウンの方法で整理されます。
論文 参考訳(メタデータ) (2021-01-22T09:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。