論文の概要: Contrastive Proposal Extension with LSTM Network for Weakly Supervised
Object Detection
- arxiv url: http://arxiv.org/abs/2110.07511v2
- Date: Sat, 16 Oct 2021 12:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 11:23:09.104158
- Title: Contrastive Proposal Extension with LSTM Network for Weakly Supervised
Object Detection
- Title(参考訳): 弱い修正対象検出のためのLSTMネットワークによる比較提案拡張
- Authors: Pei Lv, Suqi Hu, Tianran Hao, Haohan Ji, Lisha Cui, Haoyi Fan,
Mingliang Xu and Changsheng Xu
- Abstract要約: 画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD (Weakly supervised Object Detection) が注目されている。
本稿では,初期提案と拡張提案を比較して,初期提案を最適化する手法を提案する。
PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。
- 参考スコア(独自算出の注目度): 52.86681130880647
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Weakly supervised object detection (WSOD) has attracted more and more
attention since it only uses image-level labels and can save huge annotation
costs. Most of the WSOD methods use Multiple Instance Learning (MIL) as their
basic framework, which regard it as an instance classification problem.
However, these methods based on MIL tends to converge only on the most
discriminate regions of different instances, rather than their corresponding
complete regions, that is, insufficient integrity. Inspired by the habit of
observing things by the human, we propose a new method by comparing the initial
proposals and the extension ones to optimize those initial proposals.
Specifically, we propose one new strategy for WSOD by involving contrastive
proposal extension (CPE), which consists of multiple directional contrastive
proposal extensions (D-CPE), and each D-CPE contains encoders based on LSTM
network and corresponding decoders. Firstly, the boundary of initial proposals
in MIL is extended to different positions according to well-designed sequential
order. Then, CPE compares the extended proposal and the initial proposal by
extracting the feature semantics of them using the encoders, and calculates the
integrity of the initial proposal to optimize the score of the initial
proposal. These contrastive contextual semantics will guide the basic WSOD to
suppress bad proposals and improve the scores of good ones. In addition, a
simple two-stream network is designed as the decoder to constrain the temporal
coding of LSTM and improve the performance of WSOD further. Experiments on
PASCAL VOC 2007, VOC 2012 and MS-COCO datasets show that our method has
achieved the state-of-the-art results.
- Abstract(参考訳): 画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD(Weakly supervised Object Detection)が注目されている。
ほとんどのWSODメソッドは、インスタンス分類問題とみなす基本的なフレームワークとしてMIL(Multiple Instance Learning)を使用します。
しかし、MILに基づくこれらの手法は、対応する完全領域、すなわち不完全性ではなく、異なるインスタンスの最も区別された領域にのみ収束する傾向にある。
人によって物事を観察する習慣に触発されて,初期提案と拡張提案を比較して,その初期提案を最適化する手法を提案する。
具体的には、複数方向のコントラスト付き提案拡張(D-CPE)で構成されるコントラスト型提案拡張(CPE)と、LSTMネットワークと対応するデコーダに基づくエンコーダを含むD-CPEの新たな戦略を提案する。
まず、MILにおける初期提案の境界は、適切に設計された順序に従って異なる位置に拡張される。
次に、cpeはエンコーダを用いてそれらの特徴セマンティクスを抽出することで拡張提案と初期提案を比較し、初期提案の整合性を計算して初期提案のスコアを最適化する。
これらの対照的な文脈意味論は、基本的なwsodを導いて悪い提案を抑圧し、良い提案のスコアを改善する。
さらに、単純な2ストリームネットワークをデコーダとして設計し、LSTMの時間符号化を制限し、さらにWSODの性能を向上させる。
PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。
関連論文リスト
- Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - CPN: Complementary Proposal Network for Unconstrained Text Detection [7.524080426954018]
本稿では,セマンティックおよび幾何学的情報をシームレスに統合し,優れた性能を実現する補完的提案ネットワークを提案する。
補完的な提案と特徴の両方を活用することで、CPNは同等のコストで最先端のアプローチよりも優れたマージンを持つ。
論文 参考訳(メタデータ) (2024-02-18T10:43:53Z) - PETDet: Proposal Enhancement for Two-Stage Fine-Grained Object Detection [26.843891792018447]
PETDet (Proposal Enhancement for Two-stage fine-fine object detection) は, 2段階FGOD法において, サブタスクをよりよく扱うために提案される。
動的ラベル割り当てと注意に基づく分解により, アンカーフリー品質指向提案ネットワーク(QOPN)を提案する。
A novel Adaptive Recognition Loss (ARL)は、R-CNNの責任者が高品質な提案に焦点を合わせるためのガイダンスを提供する。
論文 参考訳(メタデータ) (2023-12-16T18:04:56Z) - Refine, Discriminate and Align: Stealing Encoders via Sample-Wise
Prototypes and Multi-Relational Extraction [60.0276011074825]
RDAは、事前訓練されたエンコーダを盗むために、以前の取り組みで普及した2つの主要な欠陥に対処するために設計された先駆的なアプローチである。
これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。
より強力な有効性を得るために、我々はサロゲートエンコーダを訓練し、ミスマッチした埋め込み-プロトタイプペアを識別するマルチリレーショナル抽出損失を開発する。
論文 参考訳(メタデータ) (2023-12-01T15:03:29Z) - UniInst: Unique Representation for End-to-End Instance Segmentation [29.974973664317485]
ボックスフリーでNMSフリーなエンドツーエンドのインスタンスセグメンテーションフレームワークUniInstを提案する。
具体的には、各インスタンスに1つのユニークな表現を動的に割り当てるインスタンス対応1対1の代入スキームを設計する。
これらの技術により、最初のFCNベースのエンドツーエンドインスタンスセグメンテーションフレームワークであるUniInstは、競争力のあるパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-25T10:40:26Z) - ProposalCLIP: Unsupervised Open-Category Object Proposal Generation via
Exploiting CLIP Cues [49.88590455664064]
ProposalCLIPはアノテーションなしでさまざまなオブジェクトカテゴリの提案を予測できる。
提案CLIPはまた、教師なしオブジェクト検出のような下流タスクの利点を示す。
論文 参考訳(メタデータ) (2022-01-18T01:51:35Z) - Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos [58.83440885457272]
ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。
従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
論文 参考訳(メタデータ) (2021-09-14T02:02:36Z) - VL-NMS: Breaking Proposal Bottlenecks in Two-Stage Visual-Language
Matching [75.71523183166799]
マルチモーダル入力をマッチングするための一般的なフレームワークは、2段階のプロセスに基づいている。
これらの手法は、2つの段階における提案の役割間の明らかな不一致を見落としていると論じる。
今回提案するVL-NMSは、問い合わせ対応の提案を第一段階に行う最初の手法です。
論文 参考訳(メタデータ) (2021-05-12T13:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。