論文の概要: SwiftNet: Real-time Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2102.04604v1
- Date: Tue, 9 Feb 2021 02:22:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 20:49:34.324085
- Title: SwiftNet: Real-time Video Object Segmentation
- Title(参考訳): SwiftNet: リアルタイムビデオオブジェクトセグメンテーション
- Authors: Haochen Wang, Xiaolong Jiang, Haibing Ren, Yao Hu, Song Bai
- Abstract要約: リアルタイム半教師付きオブジェクトセグメンテーション(ワンショットVOS)のためのSwiftNetを提案する。
DAVIS 2017データセットでは、77.8%のJ&Fと70のFPSが報告されている。
- 参考スコア(独自算出の注目度): 41.91119795222552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we present SwiftNet for real-time semi-supervised video object
segmentation (one-shot VOS), which reports 77.8% J&F and 70 FPS on DAVIS 2017
validation dataset, leading all present solutions in overall accuracy and speed
performance. We achieve this by elaborately compressing spatiotemporal
redundancy in matching-based VOS via Pixel-Adaptive Memory (PAM). Temporally,
PAM adaptively triggers memory updates on frames where objects display
noteworthy inter-frame variations. Spatially, PAM selectively performs memory
update and match on dynamic pixels while ignoring the static ones,
significantly reducing redundant computations wasted on segmentation-irrelevant
pixels. To promote efficient reference encoding, light-aggregation encoder is
also introduced in SwiftNet deploying reversed sub-pixel. We hope SwiftNet
could set a strong and efficient baseline for real-time VOS and facilitate its
application in mobile vision.
- Abstract(参考訳): 本稿では、DAVIS 2017バリデーションデータセット上で77.8%のJ&Fと70 FPSを報告するリアルタイムの半監視ビデオオブジェクトセグメンテーション(ワンショットVOS)のためのSwiftNetを紹介します。
これを実現するために,Pixel-Adaptive Memory (PAM) を用いたマッチングベースのVOSにおける時空間冗長性を精巧に圧縮する。
一時的には、PAMはオブジェクトが注目すべきフレーム間のバリエーションを表示するフレーム上のメモリ更新を適応的にトリガーします。
空間的には、PAMは静的なピクセルを無視しながら、動的ピクセルのメモリ更新とマッチングを選択的に行い、セグメント化関連画素に費やされた冗長な計算を著しく削減する。
効率的な参照符号化を促進するために、SwiftNetのリバースサブピクセル展開にもライトアグリゲーションエンコーダが導入されている。
SwiftNetがリアルタイムVOSの強力で効率的なベースラインを設定し、モバイルビジョンへの適用を促進することを期待しています。
関連論文リスト
- DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation [0.4487265603408873]
DeVOS(Deformable VOS)は,メモリベースマッチングと移動誘導伝搬を組み合わせたビデオオブジェクトのアーキテクチャである。
DAVIS 2017 val と test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) でトップランクを達成した。
論文 参考訳(メタデータ) (2024-05-11T14:57:22Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - Two-Stream Networks for Object Segmentation in Videos [83.1383102535413]
我々は,2ストリームネットワーク(TSN)を用いて,その画素レベルのメモリ検索に基づいて表示された画素を分割する。
インスタンスの全体的理解は、ターゲットインスタンスの特徴に基づいて動的セグメンテーションヘッドで得られる。
コンパクトなインスタンスストリームは、適応的なルーティングマップで2つのストリームを融合させながら、目に見えないピクセルのセグメンテーション精度を効果的に向上させる。
論文 参考訳(メタデータ) (2022-08-08T10:22:42Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。