論文の概要: Latest Object Memory Management for Temporally Consistent Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2507.19754v1
- Date: Sat, 26 Jul 2025 02:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.161187
- Title: Latest Object Memory Management for Temporally Consistent Video Instance Segmentation
- Title(参考訳): 時間一貫性ビデオインスタンスセグメンテーションのための最近のオブジェクトメモリ管理
- Authors: Seunghun Lee, Jiwan Seo, Minwoo Choi, Kiljoon Han, Jaehoon Jeong, Zane Durante, Ehsan Adeli, Sang Hyun Park, Sunghoon Im,
- Abstract要約: 時間的に一貫したビデオインスタンスセグメンテーションのための最新のオブジェクトメモリ管理(LOMM)を提案する。
LOMMは、各フレームにおけるオブジェクトの存在を明示的にモデル化することで、オブジェクトの最新の状態を堅牢に追跡し、更新する。
Decoupled Object Association (DOA)は、新しく出現し、すでに存在するオブジェクトを別々に扱う戦略である。
- 参考スコア(独自算出の注目度): 17.805350735895114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present Latest Object Memory Management (LOMM) for temporally consistent video instance segmentation that significantly improves long-term instance tracking. At the core of our method is Latest Object Memory (LOM), which robustly tracks and continuously updates the latest states of objects by explicitly modeling their presence in each frame. This enables consistent tracking and accurate identity management across frames, enhancing both performance and reliability through the VIS process. Moreover, we introduce Decoupled Object Association (DOA), a strategy that separately handles newly appearing and already existing objects. By leveraging our memory system, DOA accurately assigns object indices, improving matching accuracy and ensuring stable identity consistency, even in dynamic scenes where objects frequently appear and disappear. Extensive experiments and ablation studies demonstrate the superiority of our method over traditional approaches, setting a new benchmark in VIS. Notably, our LOMM achieves state-of-the-art AP score of 54.0 on YouTube-VIS 2022, a dataset known for its challenging long videos. Project page: https://seung-hun-lee.github.io/projects/LOMM/
- Abstract(参考訳): 本稿では、時間的に一貫したビデオインスタンスセグメンテーションのための最新のオブジェクトメモリ管理(LOMM)を提案する。
この手法のコアとなるのが、最新のオブジェクトメモリ(LOM)であり、各フレームにおけるオブジェクトの存在を明示的にモデル化することで、オブジェクトの状態を頑健に追跡し、継続的に更新する。
これにより、フレーム間の一貫性のあるトラッキングと正確なID管理が可能になり、VISプロセスによるパフォーマンスと信頼性の両方が向上する。
さらに、新たに出現したオブジェクトと既存のオブジェクトを別々に扱う戦略であるDecoupled Object Association (DOA)を紹介します。
メモリシステムを活用することで、DOAはオブジェクトのインデックスを正確に割り当て、マッチング精度を改善し、オブジェクトが頻繁に現れて消える動的なシーンであっても安定したアイデンティティ一貫性を確保する。
大規模な実験とアブレーション研究により、従来の手法よりも提案手法が優れていることが示され、VISに新たなベンチマークが設定された。
注目すべきは、我々のLOMMがYouTube-VIS 2022で最先端のAPスコア54.0を達成したことだ。
プロジェクトページ:https://seung-hun-lee.github.io/projects/LOMM/
関連論文リスト
- HQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback [0.0]
本稿では,高画質ビデオセグメンテーションとスマートメモリを用いたトラッキングのためのHQ-SMemを紹介する。
提案手法には, SAMと高品質マスク(SAM-HQ)を併用して, 粗いセグメンテーションマスクを改良し, オブジェクト境界を改良する, (ii) 冗長なキーフレームを廃棄しながら, 関連キーフレームを選択的に格納する動的スマートメモリ機構を実装し, (iii) 複雑なトポロジ的オブジェクトの変動を効果的に処理し, ビデオ全体のドリフトを低減するための外観モデルを動的に更新する,という3つの重要なイノベーションが含まれている。
論文 参考訳(メタデータ) (2025-07-25T03:28:05Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - MeMOT: Multi-Object Tracking with Memory [97.48960039220823]
私たちのモデルはMeMOTと呼ばれ、トランスフォーマーベースの3つの主要モジュールで構成されています。
MeMOTは広く採用されているMOTデータセット上で非常に競争力のあるパフォーマンスを観測する。
論文 参考訳(メタデータ) (2022-03-31T02:33:20Z) - Multi-Object Tracking and Segmentation with a Space-Time Memory Network [12.043574473965318]
トラックレットを関連づける新しいメモリベース機構に基づく多目的追跡とセグメンテーションの手法を提案する。
提案するトラッカーであるMeNToSは、特に長期データアソシエーションの問題に対処する。
論文 参考訳(メタデータ) (2021-10-21T17:13:17Z) - Learning Position and Target Consistency for Memory-based Video Object
Segmentation [39.787966275016906]
メモリベースのビデオオブジェクトセグメンテーションのための位置と目標整合性フレームワークを学ぶ。
メモリ機構を適用してピクセルをグローバルに取得し、一方、より信頼性の高いセグメンテーションのための位置一貫性を学習する。
実験により、LCMはDAVISとYoutube-VOSベンチマークの両方で最先端のパフォーマンスを達成しています。
論文 参考訳(メタデータ) (2021-04-09T12:22:37Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。