論文の概要: ProposalCLIP: Unsupervised Open-Category Object Proposal Generation via
Exploiting CLIP Cues
- arxiv url: http://arxiv.org/abs/2201.06696v1
- Date: Tue, 18 Jan 2022 01:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 16:15:12.406188
- Title: ProposalCLIP: Unsupervised Open-Category Object Proposal Generation via
Exploiting CLIP Cues
- Title(参考訳): ProposalCLIP: Exploiting CLIP Cuesによる教師なしオープンカテゴリオブジェクト生成
- Authors: Hengcan Shi, Munawar Hayat, Yicheng Wu, Jianfei Cai
- Abstract要約: ProposalCLIPはアノテーションなしでさまざまなオブジェクトカテゴリの提案を予測できる。
提案CLIPはまた、教師なしオブジェクト検出のような下流タスクの利点を示す。
- 参考スコア(独自算出の注目度): 49.88590455664064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object proposal generation is an important and fundamental task in computer
vision. In this paper, we propose ProposalCLIP, a method towards unsupervised
open-category object proposal generation. Unlike previous works which require a
large number of bounding box annotations and/or can only generate proposals for
limited object categories, our ProposalCLIP is able to predict proposals for a
large variety of object categories without annotations, by exploiting CLIP
(contrastive language-image pre-training) cues. Firstly, we analyze CLIP for
unsupervised open-category proposal generation and design an objectness score
based on our empirical analysis on proposal selection. Secondly, a graph-based
merging module is proposed to solve the limitations of CLIP cues and merge
fragmented proposals. Finally, we present a proposal regression module that
extracts pseudo labels based on CLIP cues and trains a lightweight network to
further refine proposals. Extensive experiments on PASCAL VOC, COCO and Visual
Genome datasets show that our ProposalCLIP can better generate proposals than
previous state-of-the-art methods. Our ProposalCLIP also shows benefits for
downstream tasks, such as unsupervised object detection.
- Abstract(参考訳): オブジェクトの提案生成はコンピュータビジョンにおいて重要かつ基本的なタスクである。
本稿では,教師なしオープンカテゴリオブジェクト提案生成のための提案CLIPを提案する。
多くのバウンディングボックスアノテーションや/または限られたオブジェクトカテゴリの提案しか生成できない以前の作業とは異なり、提案CLIPは、CLIP(Contrastive Language-image pre-training) cueを利用して、アノテーションなしでさまざまなオブジェクトカテゴリの提案を予測できます。
まず,教師なしのオープンカテゴリ提案生成のためのクリップを分析し,提案の選択に関する経験的分析に基づいて客観性スコアを設計する。
次に、CLIPキューとマージされた提案の制限を解決するために、グラフベースのマージモジュールが提案されている。
最後に,クリップキューに基づく擬似ラベルを抽出し,軽量ネットワークを訓練し,提案をさらに洗練する提案回帰モジュールを提案する。
PASCAL VOC、COCO、Visual Genomeのデータセットに対する大規模な実験により、提案CLIPは従来の最先端手法よりも提案をより良く生成できることが示された。
我々の提案CLIPはまた、教師なしオブジェクト検出のような下流タスクの利点を示す。
関連論文リスト
- Towards Completeness: A Generalizable Action Proposal Generator for Zero-Shot Temporal Action Localization [31.82121743586165]
Generalizable Action Proposal Generator (GAP)は、クエリベースのアーキテクチャで構築され、提案レベルの目的でトレーニングされる。
本アーキテクチャに基づいて,アクションのカテゴリに依存しない動的情報を強化するために,行動認識識別損失を提案する。
実験の結果,我々のGAPは2つのZSTALベンチマークで最先端の性能を達成できた。
論文 参考訳(メタデータ) (2024-08-25T09:07:06Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - Contrastive Proposal Extension with LSTM Network for Weakly Supervised
Object Detection [52.86681130880647]
画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD (Weakly supervised Object Detection) が注目されている。
本稿では,初期提案と拡張提案を比較して,初期提案を最適化する手法を提案する。
PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。
論文 参考訳(メタデータ) (2021-10-14T16:31:57Z) - Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos [58.83440885457272]
ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。
従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
論文 参考訳(メタデータ) (2021-09-14T02:02:36Z) - Online Active Proposal Set Generation for Weakly Supervised Object
Detection [41.385545249520696]
弱い教師付きオブジェクト検出メソッドはイメージレベルのアノテーションのみを必要とする。
オンライン提案サンプリングはこれらの問題に対する直感的な解決策である。
提案アルゴリズムは, PASCAL VOC 2007 と 2012 の両データセットに対して一貫した, 有意な改善を示した。
論文 参考訳(メタデータ) (2021-01-20T02:20:48Z) - Panoster: End-to-end Panoptic Segmentation of LiDAR Point Clouds [81.12016263972298]
我々は,LiDAR点雲のための提案不要なパノプティックセグメンテーション手法であるパノスターを提案する。
従来のアプローチとは異なり、Panosterでは、インスタンスを識別するための学習ベースのクラスタリングソリューションを組み込んだ、シンプルなフレームワークを提案している。
推論時に、これはクラスに依存しないセグメンテーションとして機能し、パノスターは高速で、精度の点で先行メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-10-28T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。