論文の概要: Fast Pixel-Matching for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2107.04279v1
- Date: Fri, 9 Jul 2021 07:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:48:40.005221
- Title: Fast Pixel-Matching for Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのための高速画素マッチング
- Authors: Siyue Yu, Jimin Xiao, BingFeng Zhang, Eng Gee Lim
- Abstract要約: 我々は,マスクプロパゲーションと非局所的手法に基づいて,前景オブジェクトを直接ローカライズするNPMCA-netというモデルを提案する。
提案手法は,同時に高速に新しい最先端性能を実現することができることを示す。
- 参考スコア(独自算出の注目度): 14.79639149658596
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video object segmentation, aiming to segment the foreground objects given the
annotation of the first frame, has been attracting increasing attentions. Many
state-of-the-art approaches have achieved great performance by relying on
online model updating or mask-propagation techniques. However, most online
models require high computational cost due to model fine-tuning during
inference. Most mask-propagation based models are faster but with relatively
low performance due to failure to adapt to object appearance variation. In this
paper, we are aiming to design a new model to make a good balance between speed
and performance. We propose a model, called NPMCA-net, which directly localizes
foreground objects based on mask-propagation and non-local technique by
matching pixels in reference and target frames. Since we bring in information
of both first and previous frames, our network is robust to large object
appearance variation, and can better adapt to occlusions. Extensive experiments
show that our approach can achieve a new state-of-the-art performance with a
fast speed at the same time (86.5% IoU on DAVIS-2016 and 72.2% IoU on
DAVIS-2017, with speed of 0.11s per frame) under the same level comparison.
Source code is available at https://github.com/siyueyu/NPMCA-net.
- Abstract(参考訳): 第1フレームのアノテーションによる前景オブジェクトのセグメント化を目的としたビデオオブジェクトセグメンテーションが注目されている。
多くの最先端のアプローチは、オンラインモデル更新やマスクプロパゲーション技術に頼ることで、優れたパフォーマンスを実現している。
しかし、ほとんどのオンラインモデルは推論中のモデル微調整のために高い計算コストを必要とする。
ほとんどのマスクプロパゲーションベースのモデルは高速だが、オブジェクトの外観の変化に適応できないため比較的性能が低い。
本稿では,速度と性能のバランスを良くするために,新しいモデルを設計することを目的としている。
マスクプロパゲーションと非局所的手法に基づいて、参照フレームとターゲットフレームの画素をマッチングすることにより、前景オブジェクトを直接ローカライズするNPMCA-netモデルを提案する。
最初のフレームと前のフレームの両方の情報をもたらすので、我々のネットワークは大きなオブジェクトの外観変化に対して堅牢であり、オクルージョンに適応できる。
実験の結果,DAVIS-2016では86.5% IoU,DAVIS-2017では72.2% IoU,フレーム当たり0.11秒の速度)を同時に達成できることがわかった。
ソースコードはhttps://github.com/siyueyu/NPMCA-net.comで入手できる。
関連論文リスト
- Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D
Object Detection [20.161887223481994]
マルチビュー3Dオブジェクト検出のための長周期モデリングフレームワークStreamPETRを提案する。
StreamPETRは、単一フレームのベースラインと比較して、無視可能なコストでのみ、大幅なパフォーマンス向上を実現している。
軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。
論文 参考訳(メタデータ) (2023-03-21T15:19:20Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - Make One-Shot Video Object Segmentation Efficient Again [7.7415390727490445]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオの各フレームにオブジェクトの集合をセグメンテーションするタスクを記述する。
e-OSVOSはオブジェクト検出タスクを分離し、Mask R-CNNの修正版を適用してローカルセグメンテーションマスクのみを予測する。
e-OSVOSは、DAVIS 2016、DAVIS 2017、YouTube-VOSの1ショットの微調整方法に関する最先端の結果を提供する。
論文 参考訳(メタデータ) (2020-12-03T12:21:23Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z) - Directional Deep Embedding and Appearance Learning for Fast Video Object
Segmentation [11.10636117512819]
本稿では,オンラインファインチューニングを不要とした指向性深層埋め込みとYouTube外見学習(DEmbed)手法を提案する。
本手法は,オンラインファインチューニングを使わずに最先端のVOS性能を実現する。
論文 参考訳(メタデータ) (2020-02-17T01:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。