論文の概要: Video Object Segmentation with Dynamic Query Modulation
- arxiv url: http://arxiv.org/abs/2403.11529v1
- Date: Mon, 18 Mar 2024 07:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 16:16:57.329581
- Title: Video Object Segmentation with Dynamic Query Modulation
- Title(参考訳): 動的クエリ変調によるビデオオブジェクトのセグメンテーション
- Authors: Hantao Zhou, Runze Hu, Xiu Li,
- Abstract要約: オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
- 参考スコア(独自算出の注目度): 23.811776213359625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Storing intermediate frame segmentations as memory for long-range context modeling, spatial-temporal memory-based methods have recently showcased impressive results in semi-supervised video object segmentation (SVOS). However, these methods face two key limitations: 1) relying on non-local pixel-level matching to read memory, resulting in noisy retrieved features for segmentation; 2) segmenting each object independently without interaction. These shortcomings make the memory-based methods struggle in similar object and multi-object segmentation. To address these issues, we propose a query modulation method, termed QMVOS. This method summarizes object features into dynamic queries and then treats them as dynamic filters for mask prediction, thereby providing high-level descriptions and object-level perception for the model. Efficient and effective multi-object interactions are realized through inter-query attention. Extensive experiments demonstrate that our method can bring significant improvements to the memory-based SVOS method and achieve competitive performance on standard SVOS benchmarks. The code is available at https://github.com/zht8506/QMVOS.
- Abstract(参考訳): 長期文脈モデリングのためのメモリとして中間フレームセグメンテーションを用いる時空間メモリベースの手法は,最近,半教師付きビデオオブジェクトセグメンテーション(SVOS)において顕著な結果を示した。
しかし、これらの手法には2つの重要な制限がある。
1) メモリの読み出しに非局所画素レベルのマッチングを頼りにすることで,セグメンテーションのためのノイズの多い特徴が生じる。
2) 相互作用なしに各オブジェクトを独立にセグメンテーションする。
これらの欠点は、メモリベースのメソッドが類似したオブジェクトと複数オブジェクトのセグメンテーションに苦労する。
これらの問題に対処するため,QMVOSと呼ばれるクエリ変調手法を提案する。
本手法は,オブジェクトの特徴を動的クエリに要約し,それらをマスク予測のための動的フィルタとして扱い,高レベルな記述とモデルに対するオブジェクトレベルの認識を提供する。
効率よく効果的な多目的相互作用は、クエリ間の注意によって実現される。
大規模な実験により,本手法はメモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現することができることが示された。
コードはhttps://github.com/zht8506/QMVOSで入手できる。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Learning Position and Target Consistency for Memory-based Video Object
Segmentation [39.787966275016906]
メモリベースのビデオオブジェクトセグメンテーションのための位置と目標整合性フレームワークを学ぶ。
メモリ機構を適用してピクセルをグローバルに取得し、一方、より信頼性の高いセグメンテーションのための位置一貫性を学習する。
実験により、LCMはDAVISとYoutube-VOSベンチマークの両方で最先端のパフォーマンスを達成しています。
論文 参考訳(メタデータ) (2021-04-09T12:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。