論文の概要: Box Supervised Video Segmentation Proposal Network
- arxiv url: http://arxiv.org/abs/2202.07025v1
- Date: Mon, 14 Feb 2022 20:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 09:20:02.122668
- Title: Box Supervised Video Segmentation Proposal Network
- Title(参考訳): box教師付きビデオセグメンテーション提案ネットワーク
- Authors: Tanveer Hannan, Rajat Koner, Jonathan Kobold, Matthias Schubert
- Abstract要約: 本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
- 参考スコア(独自算出の注目度): 3.384080569028146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Object Segmentation (VOS) has been targeted by various fully-supervised
and self-supervised approaches. While fully-supervised methods demonstrate
excellent results, self-supervised ones, which do not use pixel-level ground
truth, attract much attention. However, self-supervised approaches pose a
significant performance gap. Box-level annotations provide a balanced
compromise between labeling effort and result quality for image segmentation
but have not been exploited for the video domain. In this work, we propose a
box-supervised video object segmentation proposal network, which takes
advantage of intrinsic video properties. Our method incorporates object motion
in the following way: first, motion is computed using a bidirectional temporal
difference and a novel bounding box-guided motion compensation. Second, we
introduce a novel motion-aware affinity loss that encourages the network to
predict positive pixel pairs if they share similar motion and color. The
proposed method outperforms the state-of-the-art self-supervised benchmark by
16.4% and 6.9% $\mathcal{J}$ &$\mathcal{F}$ score and the majority of fully
supervised methods on the DAVIS and Youtube-VOS dataset without imposing
network architectural specifications. We provide extensive tests and ablations
on the datasets, demonstrating the robustness of our method.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)は、様々な完全教師付きおよび自己教師型のアプローチが対象となっている。
完全教師あり手法は優れた結果を示すが、ピクセルレベルの基底的真理を用いない自己教師あり方式が注目される。
しかし、自己監督アプローチは大きなパフォーマンスのギャップをもたらす。
ボックスレベルのアノテーションは、ラベル付け作業と画像セグメンテーションの結果品質のバランスのとれた妥協を提供するが、ビデオドメインでは利用されていない。
そこで本研究では,固有ビデオ特性を利用したボックス管理型ビデオオブジェクト分割提案ネットワークを提案する。
まず、双方向時間差と、新しいバウンディングボックス誘導動作補償を用いて、物体の動きを演算する。
第2に,類似した動きと色を共有する場合,ネットワークが正の画素対を予測することを促す,新しい動き認識アフィニティ損失を提案する。
提案手法は,DAVIS および Youtube-VOS データセット上の完全教師付き手法の大部分が,ネットワークアーキテクチャの仕様を課さずに16.4%,6.9% の$\mathcal{J}$および$\mathcal{F}$スコアを達成している。
我々は,データセットの広範なテストとアブレーションを行い,本手法の頑健性を示す。
関連論文リスト
- Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Online Unsupervised Video Object Segmentation via Contrastive Motion
Clustering [27.265597448266988]
オンライン教師なしビデオオブジェクトセグメンテーション(UVOS)は、以前のフレームを入力として使用し、さらに手動のアノテーションを使わずに、一次オブジェクトをストリーミングビデオから自動的に分離する。
主要な課題は、モデルに未来へのアクセスがなく、歴史のみに頼らなければならないこと、すなわち、セグメント化マスクがキャプチャされた直後に現在のフレームから予測されることである。
本研究では、オンラインUVOSにおいて、視覚的要素が同一であれば群として認識されるという共通の運命原理を利用して、光学的フローを入力として持つ新しいコントラッシブ・モーション・クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:40:31Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。