論文の概要: Dual Temporal Memory Network for Efficient Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2003.06125v1
- Date: Fri, 13 Mar 2020 06:07:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:49:45.255265
- Title: Dual Temporal Memory Network for Efficient Video Object Segmentation
- Title(参考訳): 効率的な映像オブジェクトセグメンテーションのためのデュアルテンポラリメモリネットワーク
- Authors: Kaihua Zhang, Long Wang, Dong Liu, Bo Liu, Qingshan Liu and Zhu Li
- Abstract要約: ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
- 参考スコア(独自算出の注目度): 42.05305410986511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Object Segmentation (VOS) is typically formulated in a semi-supervised
setting. Given the ground-truth segmentation mask on the first frame, the task
of VOS is to track and segment the single or multiple objects of interests in
the rest frames of the video at the pixel level. One of the fundamental
challenges in VOS is how to make the most use of the temporal information to
boost the performance. We present an end-to-end network which stores short- and
long-term video sequence information preceding the current frame as the
temporal memories to address the temporal modeling in VOS. Our network consists
of two temporal sub-networks including a short-term memory sub-network and a
long-term memory sub-network. The short-term memory sub-network models the
fine-grained spatial-temporal interactions between local regions across
neighboring frames in video via a graph-based learning framework, which can
well preserve the visual consistency of local regions over time. The long-term
memory sub-network models the long-range evolution of object via a
Simplified-Gated Recurrent Unit (S-GRU), making the segmentation be robust
against occlusions and drift errors. In our experiments, we show that our
proposed method achieves a favorable and competitive performance on three
frequently-used VOS datasets, including DAVIS 2016, DAVIS 2017 and Youtube-VOS
in terms of both speed and accuracy.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)は通常、半教師付き設定で定式化される。
第1フレームの地対面セグメンテーションマスクを考えると、vosのタスクは、ビデオの残りフレームの1つまたは複数の興味のあるオブジェクトをピクセルレベルで追跡し、セグメンテーションすることである。
VOSの基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では、VOSにおける時間的モデリングに対処するため、現在のフレームに先行する短・長期のビデオシーケンス情報を時間的記憶として格納するエンドツーエンドネットワークを提案する。
本ネットワークは,短期記憶サブネットワークと長期記憶サブネットワークの2つの時間的サブネットワークで構成される。
短期記憶サブネットワークは、グラフベースの学習フレームワークを介して、ビデオ内の隣接フレーム間の局所領域間のきめ細かい空間-時間的相互作用をモデル化する。
長期記憶サブネットワークはS-GRU(Simplified-Gated Recurrent Unit)を介してオブジェクトの長距離進化をモデル化し、セグメンテーションはオクルージョンやドリフトエラーに対して堅牢である。
提案手法は, DAVIS 2016, DAVIS 2017, Youtube-VOSを含む, 頻繁に使用される3つのVOSデータセットに対して, 速度と精度の両面で, 良好な競合性能が得られることを示す。
関連論文リスト
- Towards Temporally Consistent Referring Video Object Segmentation [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Local Memory Attention for Fast Video Semantic Segmentation [157.7618884769969]
既存の単一フレームセマンティックセグメンテーションモデルをビデオセマンティックセグメンテーションパイプラインに変換する新しいニューラルネットワークモジュールを提案する。
我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。
都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。
論文 参考訳(メタデータ) (2021-01-05T18:57:09Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。