論文の概要: Memory Matching is not Enough: Jointly Improving Memory Matching and Decoding for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2409.14343v1
- Date: Sun, 22 Sep 2024 07:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 23:04:03.911411
- Title: Memory Matching is not Enough: Jointly Improving Memory Matching and Decoding for Video Object Segmentation
- Title(参考訳): メモリマッチングは不十分:ビデオオブジェクトセグメンテーションのためのメモリマッチングとデコーディングを共同で改善
- Authors: Jintu Zheng, Yun Liang, Yuqing Zhang, Wanchao Su,
- Abstract要約: 本稿では,短期記憶のわずかな誤差を抑えるコスト認識機構と長期記憶の縮小したクロススケールマッチングを提案する。
読み出し復号の段階では、マッチング段階で欠落している重要な情報を回復することを目的とした補償機構を実装した。
提案手法は,いくつかのベンチマークにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 8.879805544183595
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Memory-based video object segmentation methods model multiple objects over long temporal-spatial spans by establishing memory bank, which achieve the remarkable performance. However, they struggle to overcome the false matching and are prone to lose critical information, resulting in confusion among different objects. In this paper, we propose an effective approach which jointly improving the matching and decoding stages to alleviate the false matching issue.For the memory matching stage, we present a cost aware mechanism that suppresses the slight errors for short-term memory and a shunted cross-scale matching for long-term memory which establish a wide filed matching spaces for various object scales. For the readout decoding stage, we implement a compensatory mechanism aims at recovering the essential information where missing at the matching stage. Our approach achieves the outstanding performance in several popular benchmarks (i.e., DAVIS 2016&2017 Val (92.4%&88.1%), and DAVIS 2017 Test (83.9%)), and achieves 84.8%&84.6% on YouTubeVOS 2018&2019 Val.
- Abstract(参考訳): メモリベースビデオオブジェクトセグメンテーション手法は、メモリバンクを確立することで、時間空間と空間空間の長い複数のオブジェクトをモデル化する。
しかし、彼らは偽のマッチングを克服するのに苦労し、重要な情報を失う傾向にあり、異なるオブジェクト間で混乱する。
本稿では、マッチングとデコーディングの段階を協調的に改善し、偽マッチング問題を緩和する効果的な手法を提案する。メモリマッチングの段階では、短期記憶のわずかな誤差を抑えるコスト認識機構と、広範囲のオブジェクトスケールのマッチング空間を確立する長期記憶用シャッタート・クロススケールマッチングを提案する。
読み出し復号の段階では、マッチング段階で欠落している重要な情報を回復することを目的とした補償機構を実装した。
DAVIS 2016&2017 Val (92.4%&88.1%) と DAVIS 2017 Test (83.9%) は、YouTubeVOS 2018&2019 Valで84.8%&84.6%を達成している。
関連論文リスト
- Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-16T12:18:04Z) - XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2022-07-14T17:59:37Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - TTVOS: Lightweight Video Object Segmentation with Adaptive Template
Attention Module and Temporal Consistency Loss [33.944900447121505]
本稿では,テンプレートマッチング法と時間的一貫性損失に基づく半教師付きビデオオブジェクトセグメンテーション(semi-VOS)モデルを提案する。
DAVIS16ベンチマークでは, 73.8 FPSの速度で79.5%のJ&F値を得た。
論文 参考訳(メタデータ) (2020-11-09T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。