論文の概要: READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2305.12823v2
- Date: Mon, 25 Sep 2023 13:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 02:41:37.587122
- Title: READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation
- Title(参考訳): readmem:unconstrained video object segmentationにおける多種多様なメモリのためのロバスト埋め込みアソシエーション
- Authors: St\'ephane Vujasinovi\'c, Sebastian Bullinger, Stefan Becker, Norbert
Scherer-Negenborn, Michael Arens and Rainer Stiefelhagen
- Abstract要約: 制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。
本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
- 参考スコア(独自算出の注目度): 24.813416082160224
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present READMem (Robust Embedding Association for a Diverse Memory), a
modular framework for semi-automatic video object segmentation (sVOS) methods
designed to handle unconstrained videos. Contemporary sVOS works typically
aggregate video frames in an ever-expanding memory, demanding high hardware
resources for long-term applications. To mitigate memory requirements and
prevent near object duplicates (caused by information of adjacent frames),
previous methods introduce a hyper-parameter that controls the frequency of
frames eligible to be stored. This parameter has to be adjusted according to
concrete video properties (such as rapidity of appearance changes and video
length) and does not generalize well. Instead, we integrate the embedding of a
new frame into the memory only if it increases the diversity of the memory
content. Furthermore, we propose a robust association of the embeddings stored
in the memory with query embeddings during the update process. Our approach
avoids the accumulation of redundant data, allowing us in return, to restrict
the memory size and prevent extreme memory demands in long videos. We extend
popular sVOS baselines with READMem, which previously showed limited
performance on long videos. Our approach achieves competitive results on the
Long-time Video dataset (LV1) while not hindering performance on short
sequences. Our code is publicly available.
- Abstract(参考訳): 本稿では,制約のないビデオを扱うための半自動ビデオオブジェクトセグメンテーション(sVOS)のためのモジュールフレームワークであるREADMem(Robust Embedding Association for a Diverse Memory)を提案する。
現代のsVOSは通常、ビデオフレームを拡張可能なメモリに集約し、長期アプリケーションに高いハードウェアリソースを要求する。
メモリ要件を緩和し、(隣接するフレームの情報による)近接オブジェクトの重複を防止するため、従来の手法では、格納可能なフレームの頻度を制御するハイパーパラメータが導入された。
このパラメータは、具体的なビデオ特性(外観変化の速さやビデオの長さなど)に応じて調整されなければならない。
代わりに、新しいフレームのメモリへの埋め込みは、それがメモリコンテンツの多様性を増加させる場合にのみ統合します。
さらに,更新プロセス中にメモリに格納された組込みとクエリ組込みとの堅牢な関連付けを提案する。
我々のアプローチは、冗長なデータの蓄積を回避し、見返りとして、メモリサイズを制限し、長いビデオにおける極端なメモリ要求を防ぐ。
一般的なsVOSベースラインをREADMemで拡張します。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
私たちのコードは公開されています。
関連論文リスト
- A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Memory Efficient Temporal & Visual Graph Model for Unsupervised Video
Domain Adaptation [50.158454960223274]
既存のビデオドメイン適応(DA)手法は、ビデオフレームの時間的組み合わせを全て格納するか、ソースとターゲットのビデオをペアにする必要がある。
本稿では,メモリ効率の高いグラフベースビデオDA手法を提案する。
論文 参考訳(メタデータ) (2022-08-13T02:56:10Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-16T12:18:04Z) - XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2022-07-14T17:59:37Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Adaptive Memory Management for Video Object Segmentation [6.282068591820945]
マッチングベースのネットワークは、将来の推論のために、各kフレームを外部メモリバンクに格納する。
メモリバンクのサイズはビデオの長さによって徐々に増加し、推論速度が遅くなり、任意の長さのビデオを扱うのが不可能になる。
本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのマッチングベースネットワークのための適応型メモリバンク戦略を提案する。
論文 参考訳(メタデータ) (2022-04-13T19:59:07Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。