論文の概要: Directional Deep Embedding and Appearance Learning for Fast Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2002.06736v1
- Date: Mon, 17 Feb 2020 01:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 12:54:39.234808
- Title: Directional Deep Embedding and Appearance Learning for Fast Video Object
Segmentation
- Title(参考訳): 高速ビデオオブジェクトセグメンテーションのための方向性深層埋め込みと外観学習
- Authors: Yingjie Yin, De Xu, Xingang Wang and Lei Zhang
- Abstract要約: 本稿では,オンラインファインチューニングを不要とした指向性深層埋め込みとYouTube外見学習(DEmbed)手法を提案する。
本手法は,オンラインファインチューニングを使わずに最先端のVOS性能を実現する。
- 参考スコア(独自算出の注目度): 11.10636117512819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent semi-supervised video object segmentation (VOS) methods rely on
fine-tuning deep convolutional neural networks online using the given mask of
the first frame or predicted masks of subsequent frames. However, the online
fine-tuning process is usually time-consuming, limiting the practical use of
such methods. We propose a directional deep embedding and appearance learning
(DDEAL) method, which is free of the online fine-tuning process, for fast VOS.
First, a global directional matching module, which can be efficiently
implemented by parallel convolutional operations, is proposed to learn a
semantic pixel-wise embedding as an internal guidance. Second, an effective
directional appearance model based statistics is proposed to represent the
target and background on a spherical embedding space for VOS. Equipped with the
global directional matching module and the directional appearance model
learning module, DDEAL learns static cues from the labeled first frame and
dynamically updates cues of the subsequent frames for object segmentation. Our
method exhibits state-of-the-art VOS performance without using online
fine-tuning. Specifically, it achieves a J & F mean score of 74.8% on DAVIS
2017 dataset and an overall score G of 71.3% on the large-scale YouTube-VOS
dataset, while retaining a speed of 25 fps with a single NVIDIA TITAN Xp GPU.
Furthermore, our faster version runs 31 fps with only a little accuracy loss.
Our code and trained networks are available at
https://github.com/YingjieYin/Directional-Deep-Embedding-and-Appearance-Learning-for-Fast-Video-Obje ct-Segmentation.
- Abstract(参考訳): 最近の半教師付きビデオオブジェクトセグメンテーション(VOS)手法は、第1フレームの所定のマスクやその後のフレームの予測マスクを使用して、オンラインで微調整の深い畳み込みニューラルネットワークに依存している。
しかし、オンラインの微調整プロセスは通常時間を要するため、そのような手法の実用化は制限される。
高速なVOSを実現するために,オンラインファインチューニングプロセスが不要な指向性深層埋め込み・外観学習(DDEAL)手法を提案する。
まず,並列畳み込み操作により効率的に実装可能な大域的方向マッチングモジュールを提案する。
第2に,VOS の球面埋め込み空間上での目標と背景を表現するために,効果的な指向性モデルに基づく統計モデルを提案する。
DDEALは、グローバルな方向マッチングモジュールと指向性モデル学習モジュールを備え、ラベル付き第1フレームから静的キューを学び、オブジェクトセグメンテーションのためにその後のフレームのキューを動的に更新する。
本手法は,オンラインファインチューニングを使わずに最先端のVOS性能を示す。
具体的には、DAVIS 2017データセットでJ&F平均スコア74.8%、大規模YouTube-VOSデータセットで総合スコアG71.3%、NVIDIA TITAN Xp GPUで25fpsの速度を維持している。
さらに、より高速なバージョンは31fpsで、わずかに精度が低下します。
私たちのコードとトレーニングされたネットワークは、https://github.com/YingjieYin/Directional-Deep-Embedding-and-Appearance-Learning-for-Fast-Video-Obje ct-Segmentationで利用可能です。
関連論文リスト
- Online Unsupervised Video Object Segmentation via Contrastive Motion
Clustering [27.265597448266988]
オンライン教師なしビデオオブジェクトセグメンテーション(UVOS)は、以前のフレームを入力として使用し、さらに手動のアノテーションを使わずに、一次オブジェクトをストリーミングビデオから自動的に分離する。
主要な課題は、モデルに未来へのアクセスがなく、歴史のみに頼らなければならないこと、すなわち、セグメント化マスクがキャプチャされた直後に現在のフレームから予測されることである。
本研究では、オンラインUVOSにおいて、視覚的要素が同一であれば群として認識されるという共通の運命原理を利用して、光学的フローを入力として持つ新しいコントラッシブ・モーション・クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:40:31Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Optimization Planning for 3D ConvNets [123.43419144051703]
3次元畳み込みニューラルネットワーク(3D ConvNets)を最適に学習するのは簡単ではない。
パスを一連のトレーニング“状態”に分解し、各状態におけるハイパーパラメータ、例えば学習率と入力クリップの長さを指定する。
我々は全ての候補状態に対して動的プログラミングを行い、最適な状態の置換、すなわち最適化経路を計画する。
論文 参考訳(メタデータ) (2022-01-11T16:13:31Z) - FAMINet: Learning Real-time Semi-supervised Video Object Segmentation
with Steepest Optimized Optical Flow [21.45623125216448]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオシーケンス内のいくつかの動くオブジェクトをセグメント化することを目的としており、これらのオブジェクトは第一フレームのアノテーションによって指定される。
光の流れは、セグメンテーションの精度を向上させるために、多くの既存の半教師付きVOS法で考慮されてきた。
本稿では,特徴抽出ネットワーク(F),外観ネットワーク(A),運動ネットワーク(M),統合ネットワーク(I)からなるFAMINetを提案する。
論文 参考訳(メタデータ) (2021-11-20T07:24:33Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Make One-Shot Video Object Segmentation Efficient Again [7.7415390727490445]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオの各フレームにオブジェクトの集合をセグメンテーションするタスクを記述する。
e-OSVOSはオブジェクト検出タスクを分離し、Mask R-CNNの修正版を適用してローカルセグメンテーションマスクのみを予測する。
e-OSVOSは、DAVIS 2016、DAVIS 2017、YouTube-VOSの1ショットの微調整方法に関する最先端の結果を提供する。
論文 参考訳(メタデータ) (2020-12-03T12:21:23Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。