論文の概要: Learning from Counting: Leveraging Temporal Classification for Weakly
Supervised Object Localization and Detection
- arxiv url: http://arxiv.org/abs/2103.04009v1
- Date: Sat, 6 Mar 2021 02:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 03:39:38.478292
- Title: Learning from Counting: Leveraging Temporal Classification for Weakly
Supervised Object Localization and Detection
- Title(参考訳): カウントからの学習: 微調整対象の局所化と検出のための時間分類の活用
- Authors: Chia-Yu Hsu and Wenwen Li
- Abstract要約: 2次元画像を1次元シーケンスデータにシリアライズするスキャンオーダー技術を導入する。
次にLSTM(Long, Short-Term Memory)とCTCネットワークを組み合わせてオブジェクトのローカライゼーションを実現する。
- 参考スコア(独自算出の注目度): 4.971083368517706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper reports a new solution of leveraging temporal classification to
support weakly supervised object detection (WSOD). Specifically, we introduce
raster scan-order techniques to serialize 2D images into 1D sequence data, and
then leverage a combined LSTM (Long, Short-Term Memory) and CTC (Connectionist
Temporal Classification) network to achieve object localization based on a
total count (of interested objects). We term our proposed network LSTM-CCTC
(Count-based CTC). This "learning from counting" strategy differs from existing
WSOD methods in that our approach automatically identifies critical points on
or near a target object. This strategy significantly reduces the need of
generating a large number of candidate proposals for object localiza- tion.
Experiments show that our method yields state-of-the-art performance based on
an evaluation on PASCAL VOC datasets.
- Abstract(参考訳): 本稿では,弱教師付き物体検出(wsod)を支援するための時間的分類手法を提案する。
具体的には,2d画像を1dシーケンスデータにシリアライズするラスタースキャンオーダー手法を導入し,lstm(long, short-term memory)とctc(connectionist temporal classification)ネットワークを併用して,総数(関心対象)に基づくオブジェクトの局在化を実現する。
提案するネットワークLSTM-CCTC (Count-based CTC) と呼ぶ。
この「カウントからの学習」戦略は、既存のWSOD手法と異なり、我々のアプローチはターゲットオブジェクトの前後の臨界点を自動的に識別する。
この戦略は、object localiza-tionの多数の候補プロポーザルを生成する必要性を大幅に削減する。
実験により, PASCAL VOCデータセットの評価に基づいて, 最先端の性能が得られた。
関連論文リスト
- ISAR: A Benchmark for Single- and Few-Shot Object Instance Segmentation
and Re-Identification [24.709695178222862]
単発および少数発のオブジェクト識別のためのベンチマークおよびベースライン手法であるISARを提案する。
地層構造意味アノテーションを用いた半合成的ビデオシーケンスデータセットを提供する。
我々のベンチマークは、マルチオブジェクト追跡、ビデオオブジェクト、再識別の新たな研究動向と一致している。
論文 参考訳(メタデータ) (2023-11-05T18:51:33Z) - Lidar Panoptic Segmentation and Tracking without Bells and Whistles [48.078270195629415]
ライダーセグメンテーションと追跡のための検出中心ネットワークを提案する。
私たちのネットワークのコアコンポーネントの1つは、オブジェクトインスタンス検出ブランチです。
提案手法を複数の3D/4D LPSベンチマークで評価し,我々のモデルがオープンソースモデル間で新たな最先端性を確立することを確認した。
論文 参考訳(メタデータ) (2023-10-19T04:44:43Z) - Meta Faster R-CNN: Towards Accurate Few-Shot Object Detection with
Attentive Feature Alignment [33.446875089255876]
Few-shot Object Detection (FSOD) は、少数の例でオブジェクトを検出することを目的としている。
本稿では,データ不足ベースクラスから学習したメタ知識を新しいクラスに転送することで,メタラーニングに基づくマイショットオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T19:01:27Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z) - A Self-Training Approach for Point-Supervised Object Detection and
Counting in Crowds [54.73161039445703]
本稿では,ポイントレベルのアノテーションのみを用いて訓練された典型的なオブジェクト検出を可能にする,新たな自己学習手法を提案する。
トレーニング中、利用可能なポイントアノテーションを使用して、オブジェクトの中心点の推定を監督する。
実験の結果,本手法は検出タスクとカウントタスクの両方において,最先端のポイント管理手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-25T02:14:42Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。