論文の概要: Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2308.13505v2
- Date: Wed, 30 Apr 2025 07:19:18 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-05-02 16:19:54.630836
- Title: Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation
- Title(参考訳): 映像オブジェクトセグメンテーションのための特徴, 対応性, 圧縮記憶の連成モデリング
- Authors: Jiaming Zhang, Yutao Cui, Gangshan Wu, Limin Wang,
- Abstract要約: 現在のオブジェクトビデオ参照メソッドは、抽出-then-matchingのパイプラインに従う。
本稿では,共同機能モデリング,対応,圧縮メモリのための統合VOSフレームワークであるJointFormerを提案する。
- 参考スコア(独自算出の注目度): 47.7036344302777
- License:
- Abstract: Current prevailing Video Object Segmentation methods follow the pipeline of extraction-then-matching, which first extracts features on current and reference frames independently, and then performs dense matching between them. This decoupled pipeline limits information propagation between frames to high-level features, hindering fine-grained details for matching. Furthermore, the pixel-wise matching lacks holistic target understanding, making it prone to disturbance by similar distractors. To address these issues, we propose a unified VOS framework, coined as JointFormer, for jointly modeling feature extraction, correspondence matching, and a compressed memory. The core Joint Modeling Block leverages attention to simultaneously extract and propagate the target information from the reference frame to the current frame and a compressed memory token. This joint scheme enables extensive multi-layer propagation beyond high-level feature space and facilitates robust instance-distinctive feature learning. To incorporate the long-term and holistic target information, we introduce a compressed memory token with a customized online updating mechanism, which aggregates target features and facilitates temporal information propagation in a frame-wise manner, enhancing global modeling consistency. Our JointFormer achieves a new state-of-the-art performance on the DAVIS 2017 val/test-dev (89.7\% and 87.6\%) benchmarks and the YouTube-VOS 2018/2019 val (87.0\% and 87.0\%) benchmarks, outperforming the existing works. To demonstrate the generalizability of our model, it is further evaluated on four new benchmarks with various difficulties, including MOSE for complex scenes, VISOR for egocentric videos, VOST for complex transformations, and LVOS for long-term videos.
- Abstract(参考訳): 現在普及しているビデオオブジェクトセグメンテーション手法は、まず現在のフレームと参照フレームの特徴を独立に抽出し、それらを密にマッチングする抜粋マッチングのパイプラインに従っている。
この分離されたパイプラインは、フレーム間の情報伝達をハイレベルな特徴に制限し、マッチングのためのきめ細かい詳細を妨げます。
さらに、画素ワイドマッチングには全体的目標理解が欠如しており、同様の乱れによる乱れが生じやすい。
これらの問題に対処するために,特徴抽出,対応マッチング,圧縮メモリを共同でモデル化するための統合VOSフレームワークであるJointFormerを提案する。
コアジョイントモデリングブロックは、注目を利用して、基準フレームから現在のフレームと圧縮されたメモリトークンとを同時に抽出し、伝播する。
このジョイントスキームは、高レベルな特徴空間を超えて広範囲な多層伝搬を可能にし、堅牢なインスタンス識別特徴学習を容易にする。
長期的・包括的対象情報を組み込むため、ターゲット特徴を集約し、時間的情報伝達を容易にするオンライン更新機構をカスタマイズした圧縮メモリトークンを導入し、グローバルなモデリング一貫性を向上させる。
当社のJointFormerは、DAVIS 2017 val/test-dev(89.7\%と87.6\%)ベンチマークとYouTube-VOS 2018/2019 val(87.0\%と87.0\%)ベンチマークで、最先端のパフォーマンスを達成し、既存の作業を上回っています。
このモデルの一般化性を示すため,複雑なシーンのMOSE,エゴセントリックビデオのVISOR,複雑な変換のVOST,長期ビデオのLVOSなど,様々な問題のある4つのベンチマークでさらに評価を行った。
関連論文リスト
- Scoring, Remember, and Reference: Catching Camouflaged Objects in Videos [24.03405963900272]
Video Camouflaged Object Detectionは、外見が周囲によく似ているオブジェクトを分割することを目的としている。
既存の視覚モデルは、カモフラージュされた物体の識別不可能な外観のために、このようなシナリオでしばしば苦労する。
人間の記憶認識にインスパイアされたエンドツーエンドのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T11:08:14Z) - Spatio-temporal Graph Learning on Adaptive Mined Key Frames for High-performance Multi-Object Tracking [5.746443489229576]
キーフレーム抽出(KFE)モジュールは、強化学習を利用して動画を適応的にセグメントする。
フレーム内フィーチャーフュージョン(IFF)モジュールは、ターゲットと周辺オブジェクト間の情報交換を容易にするために、グラフ畳み込みネットワーク(GCN)を使用する。
提案したトラッカーはMOT17データセット上で印象的な結果が得られる。
論文 参考訳(メタデータ) (2025-01-17T11:36:38Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation [0.4487265603408873]
DeVOS(Deformable VOS)は,メモリベースマッチングと移動誘導伝搬を組み合わせたビデオオブジェクトのアーキテクチャである。
DAVIS 2017 val と test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) でトップランクを達成した。
論文 参考訳(メタデータ) (2024-05-11T14:57:22Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [25.851900402539467]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
自己教師付き損失関数を組み込んで,クラス内特徴の類似性を強化し,時間的整合性を高める。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - MUNet: Motion Uncertainty-aware Semi-supervised Video Object
Segmentation [31.100954335785026]
本稿では,映像オブジェクトの半教師付きセグメンテーションのための動作不確実性認識フレームワーク(MUNet)を提案する。
動作特徴と意味的特徴を効果的に融合する動き認識型空間アテンションモジュールを提案する。
トレーニングにDAVIS17のみを使用する$76.5%の$mathcalJとmathcalF$は、低データプロトコル下でのtextitSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-29T16:01:28Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - PMVOS: Pixel-Level Matching-Based Video Object Segmentation [9.357153487612965]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、初期フレームの真理セグメンテーションマスクが提供されるとき、任意の対象オブジェクトをビデオ内にセグメンテーションすることを目的としている。
近年の画素レベルのマッチング (PM) は, 高い性能のため, 特徴マッチングに広く用いられている。
本稿では,過去のすべてのフレームの情報を含む強力なテンプレート機能を構築するPMVOS(Message-PM-based Video Object segmentation)を提案する。
論文 参考訳(メタデータ) (2020-09-18T14:22:09Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。