論文の概要: Full-Duplex Strategy for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2108.03151v1
- Date: Fri, 6 Aug 2021 14:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 15:50:09.407251
- Title: Full-Duplex Strategy for Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのためのフルダブル戦略
- Authors: Ge-Peng Ji, Keren Fu, Zhe Wu, Deng-Ping Fan, Jianbing Shen, Ling Shao
- Abstract要約: Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 141.43983376262815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Appearance and motion are two important sources of information in video
object segmentation (VOS). Previous methods mainly focus on using simplex
solutions, lowering the upper bound of feature collaboration among and across
these two cues. In this paper, we study a novel framework, termed the FSNet
(Full-duplex Strategy Network), which designs a relational cross-attention
module (RCAM) to achieve the bidirectional message propagation across embedding
subspaces. Furthermore, the bidirectional purification module (BPM) is
introduced to update the inconsistent features between the spatial-temporal
embeddings, effectively improving the model robustness. By considering the
mutual restraint within the full-duplex strategy, our FSNet performs the
cross-modal feature-passing (i.e., transmission and receiving) simultaneously
before the fusion and decoding stage, making it robust to various challenging
scenarios (e.g., motion blur, occlusion) in VOS. Extensive experiments on five
popular benchmarks (i.e., DAVIS$_{16}$, FBMS, MCL, SegTrack-V2, and
DAVSOD$_{19}$) show that our FSNet outperforms other state-of-the-arts for both
the VOS and video salient object detection tasks.
- Abstract(参考訳): 出現と動きはビデオオブジェクトセグメンテーション(VOS)における2つの重要な情報源である。
従来の手法は主に単純なソリューションの使用に重点を置いており、これらの2つのキュー間の機能コラボレーションの上限を低くしている。
本稿では, FSNet (Full-duplex Strategy Network) と呼ばれる新しいフレームワークについて検討し, 埋め込みサブ空間間の双方向メッセージ伝達を実現するために, RCAM (Relational Cross-attention Module) を設計する。
さらに,両方向浄化モジュール(BPM)を導入し,空間的・時間的埋め込み間の不整合性を更新し,モデルロバスト性を効果的に向上する。
我々のFSNetは、全二重戦略における相互拘束を考慮し、融合・復号ステージの前に同時にクロスモーダルな特徴通過(すなわち、伝送と受信)を行い、VOSの様々な挑戦シナリオ(例えば、動きのぼやけ、閉塞)に対して堅牢である。
一般的な5つのベンチマーク(DAVIS$_{16}$、FBMS、MCL、SegTrack-V2、DAVSOD$_{19}$)の大規模な実験は、我々のFSNetがVOSとビデオの精細なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示している。
関連論文リスト
- Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - Co-attention Propagation Network for Zero-Shot Video Object Segmentation [91.71692262860323]
ゼロショットオブジェクトセグメンテーション(ZS-VOS)は、これらのオブジェクトを事前に知ることなく、ビデオシーケンス内のオブジェクトをセグメンテーションすることを目的としている。
既存のZS-VOSメソッドは、しばしば前景と背景を区別したり、複雑なシナリオで前景を追跡するのに苦労する。
本稿では,オブジェクトの追跡とセグメンテーションが可能なエンコーダデコーダに基づく階層的コアテンション伝搬ネットワーク(HCPN)を提案する。
論文 参考訳(メタデータ) (2023-04-08T04:45:48Z) - Dual Prototype Attention for Unsupervised Video Object Segmentation [28.725754274542304]
教師なしビデオオブジェクトセグメンテーション(VOS)は、ビデオ中の最も有能なオブジェクトを検出し、セグメンテーションすることを目的としている。
本稿では,2つの新しいプロトタイプベースアテンション機構,IMA(Inter-modality attention)とフレーム間アテンション(IFA)を提案する。
論文 参考訳(メタデータ) (2022-11-22T06:19:17Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。