論文の概要: XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model
- arxiv url: http://arxiv.org/abs/2207.07115v1
- Date: Thu, 14 Jul 2022 17:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 14:14:43.840339
- Title: XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model
- Title(参考訳): XMem: Atkinson-Shiffrinメモリモデルを用いた長期ビデオオブジェクトセグメンテーション
- Authors: Ho Kei Cheng and Alexander G. Schwing
- Abstract要約: 機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
- 参考スコア(独自算出の注目度): 137.50614198301733
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present XMem, a video object segmentation architecture for long videos
with unified feature memory stores inspired by the Atkinson-Shiffrin memory
model. Prior work on video object segmentation typically only uses one type of
feature memory. For videos longer than a minute, a single feature memory model
tightly links memory consumption and accuracy. In contrast, following the
Atkinson-Shiffrin model, we develop an architecture that incorporates multiple
independent yet deeply-connected feature memory stores: a rapidly updated
sensory memory, a high-resolution working memory, and a compact thus sustained
long-term memory. Crucially, we develop a memory potentiation algorithm that
routinely consolidates actively used working memory elements into the long-term
memory, which avoids memory explosion and minimizes performance decay for
long-term prediction. Combined with a new memory reading mechanism, XMem
greatly exceeds state-of-the-art performance on long-video datasets while being
on par with state-of-the-art methods (that do not work on long videos) on
short-video datasets. Code is available at https://hkchengrex.github.io/XMem
- Abstract(参考訳): 我々は,Atkinson-Shiffrinメモリモデルにインスパイアされた特徴記憶を統一した長ビデオ用ビデオオブジェクトセグメンテーションアーキテクチャXMemを提案する。
ビデオオブジェクトセグメンテーションの以前の作業は、通常、1種類のフィーチャーメモリのみを使用する。
1分以上のビデオの場合、単一の機能メモリモデルはメモリ消費と精度を強くリンクする。
対照的に、atkinson-shiffrinモデルに従い、高速に更新された感覚記憶装置、高分解能の作業記憶装置、コンパクトで持続的な長期記憶装置など、複数の独立で深く接続された特徴記憶装置を組み込んだアーキテクチャを開発した。
本稿では,アクティブに使用されるメモリ要素を長期記憶に日常的に統合するメモリ強化アルゴリズムを開発し,メモリの爆発を回避し,長期予測のための性能低下を最小限に抑える。
新しいメモリ読み込みメカニズムと組み合わせることで、XMemは、短いビデオデータセットの最先端のパフォーマンスをはるかに上回り、短いビデオデータセットの最先端メソッド(長ビデオでは動作しない)と同等である。
コードはhttps://hkchengrex.github.io/XMemで入手できる。
関連論文リスト
- Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。
本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T08:31:16Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Hierarchical Memory Matching Network for Video Object Segmentation [38.24999776705497]
本稿では,時間的スムーズさを活用しながら,複数スケールのメモリ実行を可能にする2つの高度なメモリ読み取りモジュールを提案する。
まず,非局所的な高密度メモリ読み出しを代替するガイド付きメモリマッチングモジュールを提案する。
階層型メモリマッチング方式を導入し、大小のメモリを粗大のメモリで読み取るトップkガイド型メモリマッチングモジュールを提案する。
論文 参考訳(メタデータ) (2021-09-23T14:36:43Z) - Space Time Recurrent Memory Network [35.06536468525509]
本研究では,空間時間領域における学習・推論問題に対する新しい視覚記憶ネットワークアーキテクチャを提案する。
このアーキテクチャは、ビデオオブジェクトのセグメンテーションとビデオ予測の問題に基づいてベンチマークされる。
我々のメモリアーキテクチャは、一定のメモリ容量を維持しつつ、最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-14T06:53:51Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。