論文の概要: Memory-Efficient Continual Learning Object Segmentation for Long Video
- arxiv url: http://arxiv.org/abs/2309.15274v1
- Date: Tue, 26 Sep 2023 21:22:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 17:39:33.212580
- Title: Memory-Efficient Continual Learning Object Segmentation for Long Video
- Title(参考訳): 長期ビデオのためのメモリ効率の良い連続学習オブジェクトセグメンテーション
- Authors: Amir Nazemi, Mohammad Javad Shafiee, Zahra Gharaee, Paul Fieguth
- Abstract要約: 本稿では,長いビデオのモデリング精度と一般化を改善しつつ,オンラインVOS手法のメモリ要求を低減させる2つの新しい手法を提案する。
実験結果から,提案手法はオンラインVOSモデルの性能を最大10%向上させ,長ビデオデータセットのロバスト性を向上するとともに,短ビデオデータセットのDAVIS16とDAVIS17に匹敵する性能を維持した。
- 参考スコア(独自算出の注目度): 7.9190306016374485
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent state-of-the-art semi-supervised Video Object Segmentation (VOS)
methods have shown significant improvements in target object segmentation
accuracy when information from preceding frames is used in undertaking
segmentation on the current frame. In particular, such memory-based approaches
can help a model to more effectively handle appearance changes (representation
drift) or occlusions. Ideally, for maximum performance, online VOS methods
would need all or most of the preceding frames (or their extracted information)
to be stored in memory and be used for online learning in consecutive frames.
Such a solution is not feasible for long videos, as the required memory size
would grow without bound. On the other hand, these methods can fail when memory
is limited and a target object experiences repeated representation drifts
throughout a video.
We propose two novel techniques to reduce the memory requirement of online
VOS methods while improving modeling accuracy and generalization on long
videos. Motivated by the success of continual learning techniques in preserving
previously-learned knowledge, here we propose Gated-Regularizer Continual
Learning (GRCL), which improves the performance of any online VOS subject to
limited memory, and a Reconstruction-based Memory Selection Continual Learning
(RMSCL) which empowers online VOS methods to efficiently benefit from stored
information in memory.
Experimental results show that the proposed methods improve the performance
of online VOS models up to 10 %, and boosts their robustness on long-video
datasets while maintaining comparable performance on short-video datasets
DAVIS16 and DAVIS17.
- Abstract(参考訳): 近年の最先端の半教師付きビデオオブジェクトセグメンテーション (VOS) 法では, 先行フレームからの情報が現在のフレームのセグメンテーションに使用される場合, 対象オブジェクトセグメンテーション精度が大幅に向上している。
特に、そのようなメモリベースのアプローチは、モデルが外観変化(表現フロート)や閉塞をより効果的に扱うのに役立つ。
理想的には、最大パフォーマンスを得るためには、オンラインのVOSメソッドは、前のフレーム(または抽出された情報)の全てまたはほとんどをメモリに格納し、連続したフレームでオンライン学習に使用する必要がある。
長いビデオでは、必要なメモリサイズが制限なく大きくなるため、このような解決策は実現できない。
一方、これらの手法は、メモリが制限され、対象オブジェクトがビデオを通して繰り返し表現ドリフトを経験するときに失敗する可能性がある。
本稿では,長いビデオのモデリング精度と一般化を改善しつつ,オンラインVOS手法のメモリ要求を低減させる2つの新しい手法を提案する。
本稿では,事前学習した知識を保存するための連続学習技術の成功に感銘を受けて,限られたメモリを対象とするオンラインVOSの性能を向上させるGated-Regularizer Continual Learning (GRCL) と,記憶に格納された情報から効率よく得られるオンラインVOS手法を活用するRestruction-based Memory Selection Continual Learning (RMSCL) を提案する。
実験結果から,提案手法はオンラインVOSモデルの性能を最大10%向上させ,長ビデオデータセットのロバスト性を向上するとともに,短ビデオデータセットのDAVIS16とDAVIS17に匹敵する性能を維持した。
関連論文リスト
- Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-16T12:18:04Z) - Improving Task-free Continual Learning by Distributionally Robust Memory
Evolution [9.345559196495746]
タスクフリー連続学習は、明示的なタスク定義なしで非定常データストリームを学習し、以前の知識を忘れないことを目的としている。
既存の手法は、メモリデータ分布における高い不確実性を見落としている。
本稿では,メモリデータ分散を動的に進化させるためのメモリ進化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-15T02:16:09Z) - Adaptive Memory Management for Video Object Segmentation [6.282068591820945]
マッチングベースのネットワークは、将来の推論のために、各kフレームを外部メモリバンクに格納する。
メモリバンクのサイズはビデオの長さによって徐々に増加し、推論速度が遅くなり、任意の長さのビデオを扱うのが不可能になる。
本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのマッチングベースネットワークのための適応型メモリバンク戦略を提案する。
論文 参考訳(メタデータ) (2022-04-13T19:59:07Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。