論文の概要: Learning Quality-aware Dynamic Memory for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2207.07922v1
- Date: Sat, 16 Jul 2022 12:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 16:41:58.096676
- Title: Learning Quality-aware Dynamic Memory for Video Object Segmentation
- Title(参考訳): 映像オブジェクトセグメンテーションのための学習品質認識動的メモリ
- Authors: Yong Liu, Ran Yu, Fei Yin, Xinyuan Zhao, Wei Zhao, Weihao Xia, Yujiu
Yang
- Abstract要約: 本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 32.06309833058726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, several spatial-temporal memory-based methods have verified that
storing intermediate frames and their masks as memory are helpful to segment
target objects in videos. However, they mainly focus on better matching between
the current frame and the memory frames without explicitly paying attention to
the quality of the memory. Therefore, frames with poor segmentation masks are
prone to be memorized, which leads to a segmentation mask error accumulation
problem and further affect the segmentation performance. In addition, the
linear increase of memory frames with the growth of frame number also limits
the ability of the models to handle long videos. To this end, we propose a
Quality-aware Dynamic Memory Network (QDMN) to evaluate the segmentation
quality of each frame, allowing the memory bank to selectively store accurately
segmented frames to prevent the error accumulation problem. Then, we combine
the segmentation quality with temporal consistency to dynamically update the
memory bank to improve the practicability of the models. Without any bells and
whistles, our QDMN achieves new state-of-the-art performance on both DAVIS and
YouTube-VOS benchmarks. Moreover, extensive experiments demonstrate that the
proposed Quality Assessment Module (QAM) can be applied to memory-based methods
as generic plugins and significantly improves performance. Our source code is
available at https://github.com/workforai/QDMN.
- Abstract(参考訳): 近年,中間フレームとそのマスクをメモリとして保存することは,映像中の対象物をセグメント化するのに有効であることが確認されている。
しかし、それらは主に、メモリの品質に明示的に注意を払わずに、現在のフレームとメモリフレームのマッチングを改善することに重点を置いている。
したがって、セグメンテーションマスクの少ないフレームは記憶されやすく、セグメンテーションマスクエラーの蓄積問題を引き起こし、セグメンテーション性能にさらに影響を及ぼす。
さらに、フレーム数の増加に伴うメモリフレームの線形増加により、モデルが長いビデオを扱う能力も制限される。
そこで本研究では,各フレームのセグメンテーション品質を評価するためのQDMN(Quality-Aware Dynamic Memory Network)を提案する。
次に,セグメント化品質と時間的整合性を組み合わせることで,メモリバンクを動的に更新し,モデルの実用性を向上させる。
私たちのQDMNは、DAVISとYouTube-VOSベンチマークの両方で最新のパフォーマンスを実現しています。
さらに,提案する品質評価モジュール(qam)を汎用プラグインとしてメモリベースメソッドに適用し,性能を大幅に向上できることを示す実験を行った。
ソースコードはhttps://github.com/workforai/qdmnで閲覧できます。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - Addressing Issues with Working Memory in Video Object Segmentation [37.755852787082254]
ビデオオブジェクトセグメンテーション(VOS)モデルは、入ってくる未注釈画像と画像マスク関係の歴史を比較する。
芸術モデルの現在の状態は、クリーンなビデオデータで非常によく機能する。
以前のフレームのワーキングメモリへの依存は、エラーの余地を残します。
既存の動作メモリベースのVOSモデルに適用可能な,簡単なアルゴリズム変更を提案する。
論文 参考訳(メタデータ) (2024-10-29T18:34:41Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。
本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T08:31:16Z) - Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。
我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。
実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文 参考訳(メタデータ) (2023-04-24T06:19:21Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Adaptive Memory Management for Video Object Segmentation [6.282068591820945]
マッチングベースのネットワークは、将来の推論のために、各kフレームを外部メモリバンクに格納する。
メモリバンクのサイズはビデオの長さによって徐々に増加し、推論速度が遅くなり、任意の長さのビデオを扱うのが不可能になる。
本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのマッチングベースネットワークのための適応型メモリバンク戦略を提案する。
論文 参考訳(メタデータ) (2022-04-13T19:59:07Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。