Fugu-MT 論文翻訳(概要): Contrastive Proposal Extension with LSTM Network for Weakly Supervised Object Detection

論文の概要: Contrastive Proposal Extension with LSTM Network for Weakly Supervised Object Detection

arxiv url: http://arxiv.org/abs/2110.07511v2
Date: Sat, 16 Oct 2021 12:17:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-19 11:23:09.104158
Title: Contrastive Proposal Extension with LSTM Network for Weakly Supervised Object Detection
Title（参考訳）: 弱い修正対象検出のためのLSTMネットワークによる比較提案拡張
Authors: Pei Lv, Suqi Hu, Tianran Hao, Haohan Ji, Lisha Cui, Haoyi Fan, Mingliang Xu and Changsheng Xu
Abstract要約: 画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD (Weakly supervised Object Detection) が注目されている。本稿では,初期提案と拡張提案を比較して,初期提案を最適化する手法を提案する。 PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。
参考スコア（独自算出の注目度）: 52.86681130880647
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Weakly supervised object detection (WSOD) has attracted more and more attention since it only uses image-level labels and can save huge annotation costs. Most of the WSOD methods use Multiple Instance Learning (MIL) as their basic framework, which regard it as an instance classification problem. However, these methods based on MIL tends to converge only on the most discriminate regions of different instances, rather than their corresponding complete regions, that is, insufficient integrity. Inspired by the habit of observing things by the human, we propose a new method by comparing the initial proposals and the extension ones to optimize those initial proposals. Specifically, we propose one new strategy for WSOD by involving contrastive proposal extension (CPE), which consists of multiple directional contrastive proposal extensions (D-CPE), and each D-CPE contains encoders based on LSTM network and corresponding decoders. Firstly, the boundary of initial proposals in MIL is extended to different positions according to well-designed sequential order. Then, CPE compares the extended proposal and the initial proposal by extracting the feature semantics of them using the encoders, and calculates the integrity of the initial proposal to optimize the score of the initial proposal. These contrastive contextual semantics will guide the basic WSOD to suppress bad proposals and improve the scores of good ones. In addition, a simple two-stream network is designed as the decoder to constrain the temporal coding of LSTM and improve the performance of WSOD further. Experiments on PASCAL VOC 2007, VOC 2012 and MS-COCO datasets show that our method has achieved the state-of-the-art results.
Abstract（参考訳）: 画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD(Weakly supervised Object Detection)が注目されている。ほとんどのWSODメソッドは、インスタンス分類問題とみなす基本的なフレームワークとしてMIL(Multiple Instance Learning)を使用します。しかし、MILに基づくこれらの手法は、対応する完全領域、すなわち不完全性ではなく、異なるインスタンスの最も区別された領域にのみ収束する傾向にある。人によって物事を観察する習慣に触発されて,初期提案と拡張提案を比較して,その初期提案を最適化する手法を提案する。具体的には、複数方向のコントラスト付き提案拡張(D-CPE)で構成されるコントラスト型提案拡張(CPE)と、LSTMネットワークと対応するデコーダに基づくエンコーダを含むD-CPEの新たな戦略を提案する。まず、MILにおける初期提案の境界は、適切に設計された順序に従って異なる位置に拡張される。次に、cpeはエンコーダを用いてそれらの特徴セマンティクスを抽出することで拡張提案と初期提案を比較し、初期提案の整合性を計算して初期提案のスコアを最適化する。これらの対照的な文脈意味論は、基本的なwsodを導いて悪い提案を抑圧し、良い提案のスコアを改善する。さらに、単純な2ストリームネットワークをデコーダとして設計し、LSTMの時間符号化を制限し、さらにWSODの性能を向上させる。 PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。

関連論文リスト

Dual-Thresholding Heatmaps to Cluster Proposals for Weakly Supervised Object Detection [19.807828545088082]
近年,WSOD (Weakly supervised Object Detection) が注目されている。本稿では,各提案をバックグラウンドクラス表現で拡張する弱教師付き基本検出ネットワーク(WSBDN)を提案する。 VOC 2007ではmAP/mCorLocスコアが58.5%/81.8%、VOC 2012では55.6%/80.5%となり、最先端のWSOD法に対して良好に機能する。
論文参考訳（メタデータ） (2025-09-10T05:12:03Z)
PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination [23.54011217288122]
PropVGは、前景オブジェクトの提案生成と参照オブジェクトの理解をシームレスに統合するエンドツーエンドの提案ベースのフレームワークである。文レベルと単語レベルでのコントラスト学習を活用し,参照対象の理解・識別能力を高めるコントラストベースの参照スコアリング(CRS)モジュールを提案する。また、オブジェクトレベルと意味レベル情報を融合させて、欠落したターゲットの認識を改善するマルチグラニュラリティターゲット識別(MTD)モジュールを設計する。
論文参考訳（メタデータ） (2025-09-05T06:30:06Z)
Semantic Convergence: Harmonizing Recommender Systems via Two-Stage Alignment and Behavioral Semantic Tokenization [10.47505806629852]
大規模言語モデル(LLM)は、歴史的行動からユーザの深い関心を識別する能力を持っている。従来のレコメンデーションモデルとLLMの長所を調和的に融合する新しいフレームワークを提案する。我々は、協調的な信号と自然言語意味論の微妙さを整合させることを目的とした、教師付き学習タスクのシリーズを設計する。
論文参考訳（メタデータ） (2024-12-18T12:07:58Z)
Towards Scalable Semantic Representation for Recommendation [65.06144407288127]
大規模言語モデル(LLM)に基づく意味的IDを構築するために、Mixture-of-Codesを提案する。提案手法は,識別性と寸法の堅牢性に優れたスケーラビリティを実現し,提案手法で最高のスケールアップ性能を実現する。
論文参考訳（メタデータ） (2024-10-12T15:10:56Z)
Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator [60.07198935747619]
動的セマンティック・インデックス・パラダイムを採用した最初の生成型RSであるTTDS(Twin-Tower Dynamic Semantic Recommender)を提案する。より具体的には、ツイン・トワー・セマンティック・トークン・ジェネレータをLLMベースのレコメンデータに統合する動的知識融合フレームワークを初めて提案する。提案したTTDSレコメンデータは,平均19.41%のヒットレート,20.84%のNDCG測定値を実現している。
論文参考訳（メタデータ） (2024-09-14T01:45:04Z)
Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文参考訳（メタデータ） (2024-09-11T13:49:48Z)
CPN: Complementary Proposal Network for Unconstrained Text Detection [7.524080426954018]
本稿では,セマンティックおよび幾何学的情報をシームレスに統合し,優れた性能を実現する補完的提案ネットワークを提案する。補完的な提案と特徴の両方を活用することで、CPNは同等のコストで最先端のアプローチよりも優れたマージンを持つ。
論文参考訳（メタデータ） (2024-02-18T10:43:53Z)
Refine, Discriminate and Align: Stealing Encoders via Sample-Wise Prototypes and Multi-Relational Extraction [57.16121098944589]
RDAは、事前訓練されたエンコーダを盗むために、以前の取り組みで普及した2つの主要な欠陥に対処するために設計された先駆的なアプローチである。これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。より強力な有効性を得るために、我々はサロゲートエンコーダを訓練し、ミスマッチした埋め込み-プロトタイプペアを識別するマルチリレーショナル抽出損失を開発する。
論文参考訳（メタデータ） (2023-12-01T15:03:29Z)
UniInst: Unique Representation for End-to-End Instance Segmentation [29.974973664317485]
ボックスフリーでNMSフリーなエンドツーエンドのインスタンスセグメンテーションフレームワークUniInstを提案する。具体的には、各インスタンスに1つのユニークな表現を動的に割り当てるインスタンス対応1対1の代入スキームを設計する。これらの技術により、最初のFCNベースのエンドツーエンドインスタンスセグメンテーションフレームワークであるUniInstは、競争力のあるパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-05-25T10:40:26Z)
ProposalCLIP: Unsupervised Open-Category Object Proposal Generation via Exploiting CLIP Cues [49.88590455664064]
ProposalCLIPはアノテーションなしでさまざまなオブジェクトカテゴリの提案を予測できる。提案CLIPはまた、教師なしオブジェクト検出のような下流タスクの利点を示す。
論文参考訳（メタデータ） (2022-01-18T01:51:35Z)
Adaptive Proposal Generation Network for Temporal Sentence Localization in Videos [58.83440885457272]
ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
論文参考訳（メタデータ） (2021-09-14T02:02:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。