論文の概要: Learning Video Salient Object Detection Progressively from Unlabeled
Videos
- arxiv url: http://arxiv.org/abs/2204.02008v1
- Date: Tue, 5 Apr 2022 06:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:34:03.652878
- Title: Learning Video Salient Object Detection Progressively from Unlabeled
Videos
- Title(参考訳): ラベルなしビデオから順調に学習するビデオサルエント物体検出
- Authors: Binwei Xu, Haoran Liang, Wentian Ni, Weihua Gong, Ronghua Liang, Peng
Chen
- Abstract要約: ビデオアノテーションを使わずに、適切なオブジェクトを連続的に特定・セグメントするプログレッシブフレームワークによる新しいVSOD手法を提案する。
具体的には, 隣接フレームにおける高精度な位置ラベルの生成と有意な物体の追跡を行うディープテンポラルな位置ラベルを生成するアルゴリズムを提案する。
DAVIS, FBMS, ViSal, VOS, DAVSODの5つの公開ベンチマークによる実験結果から, 提案手法は完全教師付き手法と競合し, 最先端・非教師付き手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 8.224670666756193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep learning-based video salient object detection (VSOD) has achieved
some breakthrough, but these methods rely on expensive annotated videos with
pixel-wise annotations, weak annotations, or part of the pixel-wise
annotations. In this paper, based on the similarities and the differences
between VSOD and image salient object detection (SOD), we propose a novel VSOD
method via a progressive framework that locates and segments salient objects in
sequence without utilizing any video annotation. To use the knowledge learned
in the SOD dataset for VSOD efficiently, we introduce dynamic saliency to
compensate for the lack of motion information of SOD during the locating
process but retain the same fine segmenting process. Specifically, an algorithm
for generating spatiotemporal location labels, which consists of generating
high-saliency location labels and tracking salient objects in adjacent frames,
is proposed. Based on these location labels, a two-stream locating network that
introduces an optical flow branch for video salient object locating is
presented. Although our method does not require labeled video at all, the
experimental results on five public benchmarks of DAVIS, FBMS, ViSal, VOS, and
DAVSOD demonstrate that our proposed method is competitive with fully
supervised methods and outperforms the state-of-the-art weakly and unsupervised
methods.
- Abstract(参考訳): 近年、深層学習に基づくビデオサルエントオブジェクト検出(VSOD)は画期的な成果を上げているが、これらの手法は、高額な注釈付きアノテーション、弱いアノテーション、ピクセルワイドアノテーションの一部に頼っている。
本稿では,vsodとsod(image salient object detection)の類似性と差異に基づいて,ビデオアノテーションを使わずに連続的にsodオブジェクトを配置・分割するプログレッシブフレームワークによる新しいvsod法を提案する。
また,VSODのSODデータセットで学習した知識を効率的に活用するために,位置決め過程におけるSODの運動情報の欠如を補うために,ダイナミック・サリエンシを導入する。
具体的には,高度位置ラベルを生成し,隣接フレーム内の突出物体を追跡する時空間的位置ラベル生成アルゴリズムを提案する。
これらの位置ラベルに基づいて、ビデオサラエント物体位置決めのための光フロー分岐を導入した2ストリーム位置決めネットワークを示す。
提案手法はラベル付きビデオを必要としないが,davis,fbms,visal,vos,davsodの5つの公開ベンチマークによる実験結果から,提案手法が完全な教師付き手法と競合し,最先端の弱い教師付きメソッドよりも優れていることが分かる。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Weakly Supervised Video Salient Object Detection via Point Supervision [18.952253968878356]
本稿では,点監督に基づく強力なベースラインモデルを提案する。
経時的情報でサリエンシマップを推定するために, 短期・長期の観点から, フレーム間補完情報を抽出する。
DAVISとDAVSODデータセットを緩和することにより、P-DAVISとP-DAVSODの2つの点教師付きデータセットをラベル付けする。
論文 参考訳(メタデータ) (2022-07-15T03:31:15Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文 参考訳(メタデータ) (2022-02-14T20:38:28Z) - HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images [123.65233334380251]
オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。
その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
論文 参考訳(メタデータ) (2021-12-16T18:59:53Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。