論文の概要: Uncertainty Aware Active Learning for Reconfiguration of Pre-trained
Deep Object-Detection Networks for New Target Domains
- arxiv url: http://arxiv.org/abs/2303.12760v1
- Date: Wed, 22 Mar 2023 17:14:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 13:18:54.572057
- Title: Uncertainty Aware Active Learning for Reconfiguration of Pre-trained
Deep Object-Detection Networks for New Target Domains
- Title(参考訳): 新しいターゲット領域を対象とした事前学習型深度検出ネットワーク再構成のための能動学習の不確実性
- Authors: Jiaming Na, Varuna De-Silva
- Abstract要約: 物体検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つである。
オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットは、ビデオフォーマットでアノテーションのないデータを取得することを選択します。
ビデオからすべてのフレームに注釈を付けるのは、多くのフレームがモデルが学ぶのに非常によく似た情報を含んでいるため、費用がかかり非効率である。
本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection is one of the most important and fundamental aspects of
computer vision tasks, which has been broadly utilized in pose estimation,
object tracking and instance segmentation models. To obtain training data for
object detection model efficiently, many datasets opt to obtain their
unannotated data in video format and the annotator needs to draw a bounding box
around each object in the images. Annotating every frame from a video is costly
and inefficient since many frames contain very similar information for the
model to learn from. How to select the most informative frames from a video to
annotate has become a highly practical task to solve but attracted little
attention in research. In this paper, we proposed a novel active learning
algorithm for object detection models to tackle this problem. In the proposed
active learning algorithm, both classification and localization informativeness
of unlabelled data are measured and aggregated. Utilizing the temporal
information from video frames, two novel localization informativeness
measurements are proposed. Furthermore, a weight curve is proposed to avoid
querying adjacent frames. Proposed active learning algorithm with multiple
configurations was evaluated on the MuPoTS dataset and FootballPD dataset.
- Abstract(参考訳): オブジェクト検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つであり、ポーズ推定、オブジェクトトラッキング、インスタンスセグメンテーションモデルに広く利用されている。
オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットはビデオフォーマットでアノテーションのないデータを取得することを選択し、アノテータは画像内の各オブジェクトにバウンディングボックスを描画する必要がある。
多くのフレームにはモデルが学ぶべき非常によく似た情報が含まれているため、ビデオから全てのフレームに注釈をつけるのは費用がかかり非効率である。
動画からアノテートに最も有益なフレームを選択する方法は、非常に実用的なタスクになっているが、研究にはほとんど注目されていない。
本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
提案するアクティブラーニングアルゴリズムでは、ラベルなしデータの分類と局在情報度の両方を測定して集計する。
ビデオフレームからの時間情報を利用して,2つの新しい位置化情報度測定手法を提案する。
さらに,隣接するフレームの照会を避けるため,重み曲線を提案する。
複数の構成を持つ能動学習アルゴリズムを MuPoTS データセットと FootballPD データセットで評価した。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models [4.157013247909771]
ボトムアップセグメンテーション(SAM)、オブジェクト検出(Detic)、セマンティックセグメンテーション(MaskFormer)の最先端モデルを活用することを提案する。
室内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るための,コスト効率の高いラベリング手法を開発することを目的とする。
提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
論文 参考訳(メタデータ) (2023-11-17T21:58:26Z) - Proposal-Contrastive Pretraining for Object Detection from Fewer Data [11.416621957617334]
本稿では,新しい教師なし総合事前学習手法ProSeCoを提案する。
ProSeCoは、コントラスト学習のために検出器によって生成される多数のオブジェクト提案を使用する。
本手法は,標準および新しいベンチマークにおいて,対象検出のための教師なし事前学習において,最先端の手法であることを示す。
論文 参考訳(メタデータ) (2023-10-25T17:59:26Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Tiny Object Tracking: A Large-scale Dataset and A Baseline [40.93697515531104]
大規模なビデオデータセットを作成し、合計217Kフレームの434のシーケンスを含む。
データ作成において、幅広い視点とシーンの複雑さをカバーするため、12の課題属性を考慮に入れます。
統合されたフレームワークで3段階の知識蒸留を行うMKDNet(Multilevel Knowledge Distillation Network)を提案する。
論文 参考訳(メタデータ) (2022-02-11T15:00:32Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - Ensembling object detectors for image and video data analysis [98.26061123111647]
本稿では,複数の物体検出器の出力をアンサンブルすることで,画像データ上の境界ボックスの検出性能と精度を向上させる手法を提案する。
本研究では,2段階追跡に基づく検出精度向上手法を提案することで,映像データに拡張する。
論文 参考訳(メタデータ) (2021-02-09T12:38:16Z) - Novel Perception Algorithmic Framework For Object Identification and
Tracking In Autonomous Navigation [1.370633147306388]
本稿では,自律走行車における物体の認識・追跡機能を備えた新しい認識フレームワークを提案する。
このフレームワークは、Ego-vehicleのポーズ推定とKD-Treeベースのゴールセグメンテーションアルゴリズムを利用する。
方法論の有効性は、KITTIデータセット上で検証される。
論文 参考訳(メタデータ) (2020-06-08T18:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。