論文の概要: Contrastive Proposal Extension with Sequential Network for Weakly
Supervised Object Detection
- arxiv url: http://arxiv.org/abs/2110.07511v1
- Date: Thu, 14 Oct 2021 16:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 14:47:00.102274
- Title: Contrastive Proposal Extension with Sequential Network for Weakly
Supervised Object Detection
- Title(参考訳): 弱教師付き物体検出のための逐次ネットワークを用いたコントラスト提案拡張
- Authors: Pei Lv, Suqi Hu, Tianran Hao, Haohan Ji, Lisha Cui, Haoyi Fan,
Mingliang Xu and Changsheng Xu
- Abstract要約: 画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD (Weakly supervised Object Detection) が注目されている。
ほとんどのWSODメソッドは、インスタンス分類問題とみなす基本的なフレームワークとしてMIL(Multiple Instance Learning)を使用します。
本稿では,初期提案と拡張提案を比較して,初期提案を最適化する手法を提案する。
- 参考スコア(独自算出の注目度): 52.86681130880647
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Weakly supervised object detection (WSOD) has attracted more and more
attention since it only uses image-level labels and can save huge annotation
costs. Most of the WSOD methods use Multiple Instance Learning (MIL) as their
basic framework, which regard it as an instance classification problem.
However, these methods based on MIL tends to converge only on the most
discriminate regions of different instances, rather than their corresponding
complete regions, that is, insufficient integrity. Inspired by the habit of
observing things by the human, we propose a new method by comparing the initial
proposals and the extension ones to optimize those initial proposals.
Specifically, we propose one new strategy for WSOD by involving contrastive
proposal extension (CPE), which consists of multiple directional contrastive
proposal extensions (D-CPE), and each D-CPE contains encoders based on LSTM
network and corresponding decoders. %\textcolor{red}{with temporal network}.
Firstly, the boundary of initial proposals in MIL is extended to different
positions according to well-designed sequential order. Then, CPE compares the
extended proposal and the initial proposal by extracting the feature semantics
of them using the encoders, and calculates the integrity of the initial
proposal to optimize the score of the initial proposal.
- Abstract(参考訳): 画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD(Weakly supervised Object Detection)が注目されている。
ほとんどのWSODメソッドは、インスタンス分類問題とみなす基本的なフレームワークとしてMIL(Multiple Instance Learning)を使用します。
しかし、MILに基づくこれらの手法は、対応する完全領域、すなわち不完全性ではなく、異なるインスタンスの最も区別された領域にのみ収束する傾向にある。
人によって物事を観察する習慣に触発されて,初期提案と拡張提案を比較して,その初期提案を最適化する手法を提案する。
具体的には、複数方向のコントラスト付き提案拡張(D-CPE)で構成されるコントラスト型提案拡張(CPE)と、LSTMネットワークと対応するデコーダに基づくエンコーダを含むD-CPEの新たな戦略を提案する。
%\textcolor{red}{with temporal network} である。
まず、MILにおける初期提案の境界は、適切に設計された順序に従って異なる位置に拡張される。
次に、cpeはエンコーダを用いてそれらの特徴セマンティクスを抽出することで拡張提案と初期提案を比較し、初期提案の整合性を計算して初期提案のスコアを最適化する。
関連論文リスト
- Towards Scalable Semantic Representation for Recommendation [65.06144407288127]
大規模言語モデル(LLM)に基づく意味的IDを構築するために、Mixture-of-Codesを提案する。
提案手法は,識別性と寸法の堅牢性に優れたスケーラビリティを実現し,提案手法で最高のスケールアップ性能を実現する。
論文 参考訳(メタデータ) (2024-10-12T15:10:56Z) - Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator [60.07198935747619]
動的セマンティック・インデックス・パラダイムを採用した最初の生成型RSであるTTDS(Twin-Tower Dynamic Semantic Recommender)を提案する。
より具体的には、ツイン・トワー・セマンティック・トークン・ジェネレータをLLMベースのレコメンデータに統合する動的知識融合フレームワークを初めて提案する。
提案したTTDSレコメンデータは,平均19.41%のヒットレート,20.84%のNDCG測定値を実現している。
論文 参考訳(メタデータ) (2024-09-14T01:45:04Z) - CPN: Complementary Proposal Network for Unconstrained Text Detection [7.524080426954018]
本稿では,セマンティックおよび幾何学的情報をシームレスに統合し,優れた性能を実現する補完的提案ネットワークを提案する。
補完的な提案と特徴の両方を活用することで、CPNは同等のコストで最先端のアプローチよりも優れたマージンを持つ。
論文 参考訳(メタデータ) (2024-02-18T10:43:53Z) - Refine, Discriminate and Align: Stealing Encoders via Sample-Wise Prototypes and Multi-Relational Extraction [57.16121098944589]
RDAは、事前訓練されたエンコーダを盗むために、以前の取り組みで普及した2つの主要な欠陥に対処するために設計された先駆的なアプローチである。
これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。
より強力な有効性を得るために、我々はサロゲートエンコーダを訓練し、ミスマッチした埋め込み-プロトタイプペアを識別するマルチリレーショナル抽出損失を開発する。
論文 参考訳(メタデータ) (2023-12-01T15:03:29Z) - UniInst: Unique Representation for End-to-End Instance Segmentation [29.974973664317485]
ボックスフリーでNMSフリーなエンドツーエンドのインスタンスセグメンテーションフレームワークUniInstを提案する。
具体的には、各インスタンスに1つのユニークな表現を動的に割り当てるインスタンス対応1対1の代入スキームを設計する。
これらの技術により、最初のFCNベースのエンドツーエンドインスタンスセグメンテーションフレームワークであるUniInstは、競争力のあるパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-25T10:40:26Z) - ProposalCLIP: Unsupervised Open-Category Object Proposal Generation via
Exploiting CLIP Cues [49.88590455664064]
ProposalCLIPはアノテーションなしでさまざまなオブジェクトカテゴリの提案を予測できる。
提案CLIPはまた、教師なしオブジェクト検出のような下流タスクの利点を示す。
論文 参考訳(メタデータ) (2022-01-18T01:51:35Z) - Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos [58.83440885457272]
ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。
従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
論文 参考訳(メタデータ) (2021-09-14T02:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。