論文の概要: Video Object Segmentation with Episodic Graph Memory Networks
- arxiv url: http://arxiv.org/abs/2007.07020v4
- Date: Wed, 9 Dec 2020 09:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:07:30.433378
- Title: Video Object Segmentation with Episodic Graph Memory Networks
- Title(参考訳): エピソードグラフメモリネットワークを用いたビデオオブジェクト分割
- Authors: Xiankai Lu, Wenguan Wang, Martin Danelljan, Tianfei Zhou, Jianbing
Shen and Luc Van Gool
- Abstract要約: セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
- 参考スコア(独自算出の注目度): 198.74780033475724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to make a segmentation model efficiently adapt to a specific video and to
online target appearance variations are fundamentally crucial issues in the
field of video object segmentation. In this work, a graph memory network is
developed to address the novel idea of "learning to update the segmentation
model". Specifically, we exploit an episodic memory network, organized as a
fully connected graph, to store frames as nodes and capture cross-frame
correlations by edges. Further, learnable controllers are embedded to ease
memory reading and writing, as well as maintain a fixed memory scale. The
structured, external memory design enables our model to comprehensively mine
and quickly store new knowledge, even with limited visual information, and the
differentiable memory controllers slowly learn an abstract method for storing
useful representations in the memory and how to later use these representations
for prediction, via gradient descent. In addition, the proposed graph memory
network yields a neat yet principled framework, which can generalize well both
one-shot and zero-shot video object segmentation tasks. Extensive experiments
on four challenging benchmark datasets verify that our graph memory network is
able to facilitate the adaptation of the segmentation network for case-by-case
video object segmentation.
- Abstract(参考訳): セグメンテーションモデルを特定のビデオに効率的に適応させる方法は、ビデオオブジェクトセグメンテーションの分野において、基本的に重要な問題である。
本研究では,「セグメンテーションモデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークを開発した。
具体的には,完全連結グラフとして構成されたエピソードメモリネットワークを利用して,フレームをノードとして保存し,エッジによるフレーム間相関をキャプチャする。
さらに、学習可能なコントローラが組み込まれ、メモリの読み書きが容易になり、メモリのスケールが一定になる。
構造化された外部メモリ設計により, 限られた視覚情報でも新しい知識を包括的かつ迅速に蓄積することが可能となり, 微分可能なメモリコントローラは, メモリに有用な表現を格納するための抽象的手法を徐々に学習し, 勾配降下を通じてこれらの表現を後から利用する方法を学ぶことができる。
さらに、提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
4つの挑戦的なベンチマークデータセットに関する広範囲な実験により、グラフメモリネットワークが、ケースバイケースのビデオオブジェクトセグメンテーションに対するセグメンテーションネットワークの適用を容易にすることを検証します。
関連論文リスト
- Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-16T12:18:04Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Adaptive Memory Management for Video Object Segmentation [6.282068591820945]
マッチングベースのネットワークは、将来の推論のために、各kフレームを外部メモリバンクに格納する。
メモリバンクのサイズはビデオの長さによって徐々に増加し、推論速度が遅くなり、任意の長さのビデオを扱うのが不可能になる。
本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのマッチングベースネットワークのための適応型メモリバンク戦略を提案する。
論文 参考訳(メタデータ) (2022-04-13T19:59:07Z) - Efficient Multi-Organ Segmentation Using SpatialConfiguration-Net with
Low GPU Memory Requirements [8.967700713755281]
本研究では,SpatialConfiguration-Net(SCN)に基づくマルチ組織セグメンテーションモデルを用いる。
セグメンテーションモデルのアーキテクチャを改良し,メモリフットプリントの削減を図った。
最後に、我々は最小限の推論スクリプトを実装し、実行時間と必要なGPUメモリの両方を最適化した。
論文 参考訳(メタデータ) (2021-11-26T17:47:10Z) - Memory-based Semantic Segmentation for Off-road Unstructured Natural
Environments [29.498304237783763]
本稿では,セマンティックセグメンテーションのためのメモリモジュールを提案する。
メモリモジュールはトレーニングイメージのかなりの表現をメモリアイテムとして格納する。
我々は,ロボット非構造地上走行データセットとRELLISデータセットについて実験を行った。
論文 参考訳(メタデータ) (2021-08-12T10:04:47Z) - Local Memory Attention for Fast Video Semantic Segmentation [157.7618884769969]
既存の単一フレームセマンティックセグメンテーションモデルをビデオセマンティックセグメンテーションパイプラインに変換する新しいニューラルネットワークモジュールを提案する。
我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。
都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。
論文 参考訳(メタデータ) (2021-01-05T18:57:09Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。