論文の概要: SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations
- arxiv url: http://arxiv.org/abs/2309.01391v1
- Date: Mon, 4 Sep 2023 06:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 19:43:51.275872
- Title: SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations
- Title(参考訳): SSVOD:スパースアノテーションによる半教師付きビデオオブジェクト検出
- Authors: Tanvir Mahmud, Chun-Hao Liu, Burhaneddin Yaman, Diana Marculescu
- Abstract要約: SSVODはビデオのモーションダイナミクスを利用して、スパースアノテーション付き大規模未ラベルフレームを利用する。
提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISの既存手法に比べて,大幅な性能向上を実現している。
- 参考スコア(独自算出の注目度): 12.139451002212063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in semi-supervised learning for image object
detection, several key issues are yet to be addressed for video object
detection: (1) Achieving good performance for supervised video object detection
greatly depends on the availability of annotated frames. (2) Despite having
large inter-frame correlations in a video, collecting annotations for a large
number of frames per video is expensive, time-consuming, and often redundant.
(3) Existing semi-supervised techniques on static images can hardly exploit the
temporal motion dynamics inherently present in videos. In this paper, we
introduce SSVOD, an end-to-end semi-supervised video object detection framework
that exploits motion dynamics of videos to utilize large-scale unlabeled frames
with sparse annotations. To selectively assemble robust pseudo-labels across
groups of frames, we introduce \textit{flow-warped predictions} from nearby
frames for temporal-consistency estimation. In particular, we introduce
cross-IoU and cross-divergence based selection methods over a set of estimated
predictions to include robust pseudo-labels for bounding boxes and class
labels, respectively. To strike a balance between confirmation bias and
uncertainty noise in pseudo-labels, we propose confidence threshold based
combination of hard and soft pseudo-labels. Our method achieves significant
performance improvements over existing methods on ImageNet-VID, Epic-KITCHENS,
and YouTube-VIS datasets. Code and pre-trained models will be released.
- Abstract(参考訳): 画像オブジェクト検出のための半教師付き学習の進歩にもかかわらず、ビデオオブジェクト検出にはいくつかの重要な課題が未解決のままである: 1) 教師付きビデオオブジェクト検出の優れた性能を達成するには、注釈付きフレームの利用可能性に大きく依存する。
2)ビデオ内のフレーム間相関は大きいが,ビデオ毎に多数のフレームのアノテーションを収集することは高価で,時間を要するため,多くの場合冗長である。
3) 静止画像上の既存の半教師あり技術は,ビデオに固有の時間的動きのダイナミクスをほとんど利用できない。
本稿では,ビデオの動作動態を利用して,スパースアノテーションを用いた大規模未ラベルフレームを利用する,エンドツーエンドの半教師付きビデオオブジェクト検出フレームワークであるSSVODを紹介する。
フレーム群にまたがるロバストな擬似ラベルを選択的に組み立てるために,近傍のフレームから<textit{flow-warped predictions}を導入する。
特に,有界ボックスとクラスラベルにロバストな擬似ラベルを含む推定予測セットに対して,クロスIoUとクロスディバージェンスに基づく選択手法を導入する。
疑似ラベルにおける確認バイアスと不確実性雑音のバランスをとるために,硬質と軟質の擬似ラベルの組み合わせによる信頼閾値を提案する。
提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISデータセットにおける既存の手法に比べて,大幅な性能向上を実現している。
コードと事前訓練されたモデルがリリースされる。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Video Shadow Detection via Spatio-Temporal Interpolation Consistency
Training [31.115226660100294]
本稿では、ラベル付き画像とともにラベル付きビデオフレームを画像陰影検出ネットワークトレーニングに供給するフレームワークを提案する。
次に,画素ワイド分類における一般化の促進のために,空間的および時間的整合性の制約を導出する。
さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計する。
論文 参考訳(メタデータ) (2022-06-17T14:29:51Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - A Self-Reasoning Framework for Anomaly Detection Using Video-Level
Labels [17.615297975503648]
監視ビデオにおける異常事象の検出は、画像およびビデオ処理コミュニティの間で困難かつ実践的な研究課題である。
本稿では、ビデオレベルラベルのみを用いて自己推論方式で訓練されたディープニューラルネットワークに基づく、弱い教師付き異常検出フレームワークを提案する。
提案するフレームワークは,UCF-crimeやShanghaiTech,Ped2など,公開されている実世界の異常検出データセット上で評価されている。
論文 参考訳(メタデータ) (2020-08-27T02:14:15Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。