Fugu-MT 論文翻訳(概要): SWEM: Towards Real-Time Video Object Segmentation with Sequential Weighted Expectation-Maximization

論文の概要: SWEM: Towards Real-Time Video Object Segmentation with Sequential Weighted Expectation-Maximization

arxiv url: http://arxiv.org/abs/2208.10128v1
Date: Mon, 22 Aug 2022 08:03:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-23 13:37:00.847602
Title: SWEM: Towards Real-Time Video Object Segmentation with Sequential Weighted Expectation-Maximization
Title（参考訳）: SWEM:Sequential Weighted expectation-Maximizationによるリアルタイムビデオオブジェクトセグメンテーションを目指して
Authors: Zhihui Lin, Tianyu Yang, Maomao Li, Ziyu Wang, Chun Yuan, Wenhao Jiang, and Wei Liu
Abstract要約: 本稿では,メモリ特性の冗長性を大幅に低減するために,SWEM(Sequential Weighted expectation-Maximization)ネットワークを提案する。 SWEMは、シーケンシャル重み付きEMアルゴリズムを活用することで、フレーム内およびフレーム間類似の機能を組み合わせる。一般的に使用されているDAVISとYouTube-VOSデータセットの実験は、高効率(36 FPS)と高パフォーマンス(84.3%$mathcalJ&mathcalF$ on DAVIS 2017 Validationデータセット)を検証する。
参考スコア（独自算出の注目度）: 36.43412404616356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Matching-based methods, especially those based on space-time memory, are significantly ahead of other solutions in semi-supervised video object segmentation (VOS). However, continuously growing and redundant template features lead to an inefficient inference. To alleviate this, we propose a novel Sequential Weighted Expectation-Maximization (SWEM) network to greatly reduce the redundancy of memory features. Different from the previous methods which only detect feature redundancy between frames, SWEM merges both intra-frame and inter-frame similar features by leveraging the sequential weighted EM algorithm. Further, adaptive weights for frame features endow SWEM with the flexibility to represent hard samples, improving the discrimination of templates. Besides, the proposed method maintains a fixed number of template features in memory, which ensures the stable inference complexity of the VOS system. Extensive experiments on commonly used DAVIS and YouTube-VOS datasets verify the high efficiency (36 FPS) and high performance (84.3\% $\mathcal{J}\&\mathcal{F}$ on DAVIS 2017 validation dataset) of SWEM. Code is available at: https://github.com/lmm077/SWEM.
Abstract（参考訳）: マッチングに基づく手法、特に時空メモリに基づく手法は、半教師付きビデオオブジェクトセグメンテーション(VOS)における他のソリューションよりもはるかに優れている。しかし、継続的な成長と冗長なテンプレート機能は非効率な推論につながる。そこで本研究では,メモリ特性の冗長性を大幅に低減するために,SWEM(Sequential Weighted expectation-Maximization)ネットワークを提案する。フレーム間の特徴冗長性のみを検出する従来の方法とは異なり、SWEMはシーケンシャル重み付きEMアルゴリズムを利用してフレーム内とフレーム間の両方をマージする。さらに,フレーム特性の適応重み付けにより,ハードサンプル表現の柔軟性が向上し,テンプレートの識別性が向上した。さらに,提案手法は,VOSシステムの安定な推論複雑性を保証するため,メモリに一定数のテンプレート機能を保持する。 DAVISとYouTube-VOSデータセットの大規模な実験はSWEMの高効率(36 FPS)と高パフォーマンス(84.3\% $\mathcal{J}\&\mathcal{F}$ on DAVIS 2017 Validation dataset)を検証する。コードは、https://github.com/lmm077/SWEMで入手できる。

関連論文リスト

LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文参考訳（メタデータ） (2024-11-05T05:36:17Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Video Semantic Segmentation with Inter-Frame Feature Fusion and Inner-Frame Feature Refinement [39.06589186472675]
マルチフレーム特徴量間の密接なペア関係をモデル化するための時空間融合(STF)モジュールを提案する。さらに,セマンティックバウンダリ間の困難な予測に対処するために,メモリ拡張改良(MAR)モジュールを提案する。
論文参考訳（メタデータ） (2023-01-10T07:57:05Z)
Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文参考訳（メタデータ） (2021-06-09T16:50:57Z)
Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。 SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文参考訳（メタデータ） (2021-02-21T12:01:48Z)
GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。 SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文参考訳（メタデータ） (2021-01-21T10:09:47Z)
Hierarchical Dynamic Filtering Network for RGB-D Salient Object Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。本稿では,これらの問題を新たな視点から考察する。我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文参考訳（メタデータ） (2020-07-13T07:59:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。