論文の概要: SWEM: Towards Real-Time Video Object Segmentation with Sequential
Weighted Expectation-Maximization
- arxiv url: http://arxiv.org/abs/2208.10128v1
- Date: Mon, 22 Aug 2022 08:03:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:37:00.847602
- Title: SWEM: Towards Real-Time Video Object Segmentation with Sequential
Weighted Expectation-Maximization
- Title(参考訳): SWEM:Sequential Weighted expectation-Maximizationによるリアルタイムビデオオブジェクトセグメンテーションを目指して
- Authors: Zhihui Lin, Tianyu Yang, Maomao Li, Ziyu Wang, Chun Yuan, Wenhao
Jiang, and Wei Liu
- Abstract要約: 本稿では,メモリ特性の冗長性を大幅に低減するために,SWEM(Sequential Weighted expectation-Maximization)ネットワークを提案する。
SWEMは、シーケンシャル重み付きEMアルゴリズムを活用することで、フレーム内およびフレーム間類似の機能を組み合わせる。
一般的に使用されているDAVISとYouTube-VOSデータセットの実験は、高効率(36 FPS)と高パフォーマンス(84.3%$mathcalJ&mathcalF$ on DAVIS 2017 Validationデータセット)を検証する。
- 参考スコア(独自算出の注目度): 36.43412404616356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matching-based methods, especially those based on space-time memory, are
significantly ahead of other solutions in semi-supervised video object
segmentation (VOS). However, continuously growing and redundant template
features lead to an inefficient inference. To alleviate this, we propose a
novel Sequential Weighted Expectation-Maximization (SWEM) network to greatly
reduce the redundancy of memory features. Different from the previous methods
which only detect feature redundancy between frames, SWEM merges both
intra-frame and inter-frame similar features by leveraging the sequential
weighted EM algorithm. Further, adaptive weights for frame features endow SWEM
with the flexibility to represent hard samples, improving the discrimination of
templates. Besides, the proposed method maintains a fixed number of template
features in memory, which ensures the stable inference complexity of the VOS
system. Extensive experiments on commonly used DAVIS and YouTube-VOS datasets
verify the high efficiency (36 FPS) and high performance (84.3\%
$\mathcal{J}\&\mathcal{F}$ on DAVIS 2017 validation dataset) of SWEM. Code is
available at: https://github.com/lmm077/SWEM.
- Abstract(参考訳): マッチングに基づく手法、特に時空メモリに基づく手法は、半教師付きビデオオブジェクトセグメンテーション(VOS)における他のソリューションよりもはるかに優れている。
しかし、継続的な成長と冗長なテンプレート機能は非効率な推論につながる。
そこで本研究では,メモリ特性の冗長性を大幅に低減するために,SWEM(Sequential Weighted expectation-Maximization)ネットワークを提案する。
フレーム間の特徴冗長性のみを検出する従来の方法とは異なり、SWEMはシーケンシャル重み付きEMアルゴリズムを利用してフレーム内とフレーム間の両方をマージする。
さらに,フレーム特性の適応重み付けにより,ハードサンプル表現の柔軟性が向上し,テンプレートの識別性が向上した。
さらに,提案手法は,VOSシステムの安定な推論複雑性を保証するため,メモリに一定数のテンプレート機能を保持する。
DAVISとYouTube-VOSデータセットの大規模な実験はSWEMの高効率(36 FPS)と高パフォーマンス(84.3\% $\mathcal{J}\&\mathcal{F}$ on DAVIS 2017 Validation dataset)を検証する。
コードは、https://github.com/lmm077/SWEMで入手できる。
関連論文リスト
- Video Semantic Segmentation with Inter-Frame Feature Fusion and
Inner-Frame Feature Refinement [39.06589186472675]
マルチフレーム特徴量間の密接なペア関係をモデル化するための時空間融合(STF)モジュールを提案する。
さらに,セマンティックバウンダリ間の困難な予測に対処するために,メモリ拡張改良(MAR)モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-10T07:57:05Z) - Video Instance Segmentation via Multi-scale Spatio-temporal Split
Attention Transformer [77.95612004326055]
ビデオセグメンテーション(VIS)アプローチは通常、注意計算中に単一スケールの時間的特徴またはフレームごとのマルチスケール特徴のいずれかを利用する。
エンコーダにMS-STSアテンションモジュールを組み込んだトランスフォーマーベースのVISフレームワークMS-STS VISを提案する。
MS-STSモジュールは、ビデオ内のフレームをまたいだ複数のスケールにおける分割時間的特徴関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2022-03-24T17:59:20Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。