論文の概要: Memory-Efficient Continual Learning Object Segmentation for Long Video
- arxiv url: http://arxiv.org/abs/2309.15274v2
- Date: Wed, 14 Feb 2024 17:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 19:34:51.382899
- Title: Memory-Efficient Continual Learning Object Segmentation for Long Video
- Title(参考訳): 長期ビデオのためのメモリ効率の良い連続学習オブジェクトセグメンテーション
- Authors: Amir Nazemi, Mohammad Javad Shafiee, Zahra Gharaee, Paul Fieguth
- Abstract要約: 本稿では,オンラインVOS手法のメモリ要求を低減し,長ビデオのモデリング精度と一般化を向上する2つの新しい手法を提案する。
事前学習した知識を保存するための継続的学習技術の成功に動機づけられた、Gated-Regularizer Continual Learning (GRCL)とRestruction-based Memory Selection Continual Learning (RMSCL)を提案する。
実験結果から,提案手法はオンラインVOSモデルの性能を8%以上向上し,長期画像データセットのロバスト性の向上を図っている。
- 参考スコア(独自算出の注目度): 7.9190306016374485
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent state-of-the-art semi-supervised Video Object Segmentation (VOS)
methods have shown significant improvements in target object segmentation
accuracy when information from preceding frames is used in segmenting the
current frame. In particular, such memory-based approaches can help a model to
more effectively handle appearance changes (representation drift) or
occlusions. Ideally, for maximum performance, Online VOS methods would need all
or most of the preceding frames (or their extracted information) to be stored
in memory and be used for online learning in later frames. Such a solution is
not feasible for long videos, as the required memory size grows without bound,
and such methods can fail when memory is limited and a target object
experiences repeated representation drifts throughout a video. We propose two
novel techniques to reduce the memory requirement of Online VOS methods while
improving modeling accuracy and generalization on long videos. Motivated by the
success of continual learning techniques in preserving previously-learned
knowledge, here we propose Gated-Regularizer Continual Learning (GRCL), which
improves the performance of any Online VOS subject to limited memory, and a
Reconstruction-based Memory Selection Continual Learning (RMSCL), which
empowers Online VOS methods to efficiently benefit from stored information in
memory. We also analyze the performance of a hybrid combination of the two
proposed methods. Experimental results show that the proposed methods are able
to improve the performance of Online VOS models by more than 8%, with improved
robustness on long-video datasets while maintaining comparable performance on
short-video datasets such as DAVIS16, DAVIS17, and YouTube-VOS18.
- Abstract(参考訳): 近年の最先端の半教師付きビデオオブジェクトセグメンテーション (VOS) 法では, 先行フレームからの情報が現在のフレームのセグメンテーションに使用される場合, 対象オブジェクトセグメンテーション精度が大幅に向上している。
特に、そのようなメモリベースのアプローチは、モデルが外観変化(表現フロート)や閉塞をより効果的に扱うのに役立つ。
理想的には、最大パフォーマンスを得るためには、Online VOSメソッドは、前のフレーム(または抽出された情報)のすべてまたはほとんどをメモリに格納し、後のフレームでオンライン学習に使用する必要がある。
このような解決策は長いビデオでは実現不可能であり、必要なメモリサイズは制限なく増大し、メモリが制限され、対象オブジェクトがビデオを通して反復的な表現ドリフトを経験した場合、そのような手法は失敗する可能性がある。
本稿では,オンラインVOS手法のメモリ要求を低減し,長ビデオのモデリング精度と一般化を向上する2つの新しい手法を提案する。
本稿では,事前学習した知識を保存するための連続学習技術の成功に触発されて,限られたメモリを対象とするオンラインVOSの性能を向上させるGated-Regularizer Continual Learning (GRCL) と,記憶に格納された情報から効率よく得られるオンラインVOS手法を活用するRestruction-based Memory Selection Continual Learning (RMSCL) を提案する。
また,提案する2つの手法のハイブリッド・コンビネーションの性能解析を行った。
実験の結果,提案手法は,DAVIS16,DAVIS17,YouTube-VOS18などの短ビデオデータセットに匹敵する性能を維持しつつ,長ビデオデータセットのロバスト性を向上し,オンラインVOSモデルの性能を8%以上向上させることができることがわかった。
関連論文リスト
- ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection [1.9384004397336387]
ビデオ異常検出(VAD)は、コンピュータビジョン内の映像分析と監視において重要な課題である。
本稿では,VideoPatchCore と呼ばれる VAD の効率的なメモリ手法を提案する。
提案手法では,メモリ最適化を優先する構造を導入し,映像データの特徴に合わせて3種類のメモリを設定する。
論文 参考訳(メタデータ) (2024-09-24T16:38:41Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-16T12:18:04Z) - Adaptive Memory Management for Video Object Segmentation [6.282068591820945]
マッチングベースのネットワークは、将来の推論のために、各kフレームを外部メモリバンクに格納する。
メモリバンクのサイズはビデオの長さによって徐々に増加し、推論速度が遅くなり、任意の長さのビデオを扱うのが不可能になる。
本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのマッチングベースネットワークのための適応型メモリバンク戦略を提案する。
論文 参考訳(メタデータ) (2022-04-13T19:59:07Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。