論文の概要: Hierarchical Memory Matching Network for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2109.11404v1
- Date: Thu, 23 Sep 2021 14:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 14:58:40.299362
- Title: Hierarchical Memory Matching Network for Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのための階層的メモリマッチングネットワーク
- Authors: Hongje Seong, Seoung Wug Oh, Joon-Young Lee, Seongwon Lee, Suhyeon
Lee, Euntai Kim
- Abstract要約: 本稿では,時間的スムーズさを活用しながら,複数スケールのメモリ実行を可能にする2つの高度なメモリ読み取りモジュールを提案する。
まず,非局所的な高密度メモリ読み出しを代替するガイド付きメモリマッチングモジュールを提案する。
階層型メモリマッチング方式を導入し、大小のメモリを粗大のメモリで読み取るトップkガイド型メモリマッチングモジュールを提案する。
- 参考スコア(独自算出の注目度): 38.24999776705497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Hierarchical Memory Matching Network (HMMN) for semi-supervised
video object segmentation. Based on a recent memory-based method [33], we
propose two advanced memory read modules that enable us to perform memory
reading in multiple scales while exploiting temporal smoothness. We first
propose a kernel guided memory matching module that replaces the non-local
dense memory read, commonly adopted in previous memory-based methods. The
module imposes the temporal smoothness constraint in the memory read, leading
to accurate memory retrieval. More importantly, we introduce a hierarchical
memory matching scheme and propose a top-k guided memory matching module in
which memory read on a fine-scale is guided by that on a coarse-scale. With the
module, we perform memory read in multiple scales efficiently and leverage both
high-level semantic and low-level fine-grained memory features to predict
detailed object masks. Our network achieves state-of-the-art performance on the
validation sets of DAVIS 2016/2017 (90.8% and 84.7%) and YouTube-VOS 2018/2019
(82.6% and 82.5%), and test-dev set of DAVIS 2017 (78.6%). The source code and
model are available online: https://github.com/Hongje/HMMN.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーションのための階層型メモリマッチングネットワーク(HMMN)を提案する。
近年のメモリベース手法 [33] に基づき, 時間的平滑さを生かしながら, 複数スケールでメモリ読み取りが可能な2つの先進的メモリ読み取りモジュールを提案する。
まず,従来のメモリベース手法で広く採用されている非局所的な高密度メモリリードを代替するカーネル誘導型メモリマッチングモジュールを提案する。
モジュールはメモリ読み込みに時間的滑らかさの制約を課し、正確なメモリ検索につながる。
さらに,階層的メモリマッチングスキームを導入し,細かなスケールで読み出したメモリを粗いスケールでガイドするtop-k誘導型メモリマッチングモジュールを提案する。
モジュールでは,複数のスケールでメモリ読み出しを効率的に行い,高レベルセマンティクスと低レベル細粒度のメモリ機能を両立して詳細なオブジェクトマスクを予測する。
我々のネットワークは、DAVIS 2016/2017(90.8%と84.7%)とYouTube-VOS 2018/2019(82.6%と82.5%)の検証セットと、DAVIS 2017(78.6%)のテストデブセットの最先端のパフォーマンスを達成する。
ソースコードとモデルはオンラインで入手できる。 https://github.com/Hongje/HMMN。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。
我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。
実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文 参考訳(メタデータ) (2023-04-24T06:19:21Z) - Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-16T12:18:04Z) - XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2022-07-14T17:59:37Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。