論文の概要: Recurrent Dynamic Embedding for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2205.03761v1
- Date: Sun, 8 May 2022 02:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 16:34:07.269264
- Title: Recurrent Dynamic Embedding for Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのためのリカレント動的埋め込み
- Authors: Mingxing Li, Li Hu, Zhiwei Xiong, Bang Zhang, Pan Pan, Dong Liu
- Abstract要約: 一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
- 参考スコア(独自算出の注目度): 54.52527157232795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Space-time memory (STM) based video object segmentation (VOS) networks
usually keep increasing memory bank every several frames, which shows excellent
performance. However, 1) the hardware cannot withstand the ever-increasing
memory requirements as the video length increases. 2) Storing lots of
information inevitably introduces lots of noise, which is not conducive to
reading the most important information from the memory bank. In this paper, we
propose a Recurrent Dynamic Embedding (RDE) to build a memory bank of constant
size. Specifically, we explicitly generate and update RDE by the proposed
Spatio-temporal Aggregation Module (SAM), which exploits the cue of historical
information. To avoid error accumulation owing to the recurrent usage of SAM,
we propose an unbiased guidance loss during the training stage, which makes SAM
more robust in long videos. Moreover, the predicted masks in the memory bank
are inaccurate due to the inaccurate network inference, which affects the
segmentation of the query frame. To address this problem, we design a novel
self-correction strategy so that the network can repair the embeddings of masks
with different qualities in the memory bank. Extensive experiments show our
method achieves the best tradeoff between performance and speed. Code is
available at https://github.com/Limingxing00/RDE-VOS-CVPR2022.
- Abstract(参考訳): 時空間メモリ(STM)ベースのビデオオブジェクトセグメンテーション(VOS)ネットワークは、通常、数フレーム毎にメモリバンクを増大させ、優れた性能を示す。
しかし、
1)ビデオ長の増加に伴い,ハードウェアはメモリ要求の増大に耐えられない。
2)多くの情報を格納することは必然的に多くのノイズをもたらし、メモリバンクから最も重要な情報を読み取ることには役立たない。
本稿では,一定サイズのメモリバンクを構築するためのRecurrent Dynamic Embedding (RDE)を提案する。
具体的には,歴史情報のキューを利用した時空間アグリゲーションモジュール (SAM) によってRDEを明示的に生成・更新する。
SAMの繰り返し使用による誤りの蓄積を回避するため,トレーニング段階での誘導損失の偏りをなくし,長大なビデオでSAMをより堅牢にする手法を提案する。
さらに、メモリバンク内の予測されたマスクは、クエリフレームのセグメンテーションに影響する不正確なネットワーク推論のために不正確である。
この問題に対処するために,ネットワークがメモリバンク内の異なる品質のマスクの埋め込みを修復できるように,新たな自己補正戦略を設計する。
実験により,本手法は性能と速度の最良のトレードオフを実現することを示す。
コードはhttps://github.com/Limingxing00/RDE-VOS-CVPR2022で公開されている。
関連論文リスト
- ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - RMem: Restricted Memory Banks Improve Video Object Segmentation [26.103189475763998]
ビデオオブジェクトセグメンテーション(VOS)ベンチマークは、挑戦的なシナリオへと進化している。
我々は、メモリバンクのサイズを制限するという、単純だが見過ごされた戦略を再考する。
メモリバンクを限られた数の必須フレームに制限することにより、VOSの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-12T17:59:04Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。
本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T08:31:16Z) - Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。
我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。
実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文 参考訳(メタデータ) (2023-04-24T06:19:21Z) - Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-16T12:18:04Z) - XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2022-07-14T17:59:37Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。