論文の概要: Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2308.13505v1
- Date: Fri, 25 Aug 2023 17:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 13:02:08.332752
- Title: Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation
- Title(参考訳): 映像オブジェクトセグメンテーションのための特徴量・対応性・圧縮メモリの協調モデリング
- Authors: Jiaming Zhang, Yutao Cui, Gangshan Wu, Limin Wang
- Abstract要約: 現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
- 参考スコア(独自算出の注目度): 52.11279360934703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current prevailing Video Object Segmentation (VOS) methods usually perform
dense matching between the current and reference frames after extracting their
features. One on hand, the decoupled modeling restricts the targets information
propagation only at high-level feature space. On the other hand, the pixel-wise
matching leads to a lack of holistic understanding of the targets. To overcome
these issues, we propose a unified VOS framework, coined as JointFormer, for
joint modeling the three elements of feature, correspondence, and a compressed
memory. The core design is the Joint Block, utilizing the flexibility of
attention to simultaneously extract feature and propagate the targets
information to the current tokens and the compressed memory token. This scheme
allows to perform extensive information propagation and discriminative feature
learning. To incorporate the long-term temporal targets information, we also
devise a customized online updating mechanism for the compressed memory token,
which can prompt the information flow along the temporal dimension and thus
improve the global modeling capability. Under the design, our method achieves a
new state-of-art performance on DAVIS 2017 val/test-dev (89.7% and 87.6%) and
YouTube-VOS 2018/2019 val (87.0% and 87.0%) benchmarks, outperforming existing
works by a large margin.
- Abstract(参考訳): 現在のビデオオブジェクトセグメンテーション(VOS)メソッドは、通常、特徴を抽出した後、現在のフレームと参照フレームの密マッチングを実行する。
一方、分離されたモデリングは、高レベルな特徴空間でのみターゲット情報伝搬を制限する。
一方、ピクセル単位でのマッチングは、ターゲットの全体的理解の欠如につながる。
これらの問題を解決するために,特徴,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
中心となる設計はジョイントブロックであり、注意の柔軟性を利用して特徴を抽出し、ターゲット情報を現在のトークンと圧縮メモリトークンに伝播する。
このスキームは、広範な情報伝達と識別的特徴学習を可能にする。
長期の時間的目標情報を組み込むため、圧縮されたメモリトークンのオンライン更新機構を考案し、時間的次元に沿った情報の流れを誘導し、グローバルなモデリング能力を向上させる。
DAVIS 2017 val/test-dev (89.7% と 87.6%) と YouTube-VOS 2018/2019 val (87.0% と 87.0%) のベンチマークでは、新しい最先端のパフォーマンスを実現し、既存の作業よりも大きなマージンを達成している。
関連論文リスト
- Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation [0.4487265603408873]
DeVOS(Deformable VOS)は,メモリベースマッチングと移動誘導伝搬を組み合わせたビデオオブジェクトのアーキテクチャである。
DAVIS 2017 val と test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) でトップランクを達成した。
論文 参考訳(メタデータ) (2024-05-11T14:57:22Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - MUNet: Motion Uncertainty-aware Semi-supervised Video Object
Segmentation [31.100954335785026]
本稿では,映像オブジェクトの半教師付きセグメンテーションのための動作不確実性認識フレームワーク(MUNet)を提案する。
動作特徴と意味的特徴を効果的に融合する動き認識型空間アテンションモジュールを提案する。
トレーニングにDAVIS17のみを使用する$76.5%の$mathcalJとmathcalF$は、低データプロトコル下でのtextitSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-29T16:01:28Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - PMVOS: Pixel-Level Matching-Based Video Object Segmentation [9.357153487612965]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、初期フレームの真理セグメンテーションマスクが提供されるとき、任意の対象オブジェクトをビデオ内にセグメンテーションすることを目的としている。
近年の画素レベルのマッチング (PM) は, 高い性能のため, 特徴マッチングに広く用いられている。
本稿では,過去のすべてのフレームの情報を含む強力なテンプレート機能を構築するPMVOS(Message-PM-based Video Object segmentation)を提案する。
論文 参考訳(メタデータ) (2020-09-18T14:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。