論文の概要: Spectrum-guided Multi-granularity Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2307.13537v1
- Date: Tue, 25 Jul 2023 14:35:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 16:47:58.994577
- Title: Spectrum-guided Multi-granularity Referring Video Object Segmentation
- Title(参考訳): スペクトル誘導多面体参照ビデオオブジェクトセグメンテーション
- Authors: Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian
- Abstract要約: 現在の参照ビデオオブジェクトセグメンテーション(R-VOS)技術は、符号化された(低解像度)視覚言語特徴から条件付きカーネルを抽出し、デコードされた高解像度特徴をセグメンテーションする。
これは、セグメント化カーネルが前方の計算で知覚に苦慮する重要な特徴の漂流を引き起こす。
符号化された特徴に対して直接セグメント化を行い,マスクをさらに最適化するために視覚的詳細を利用するスペクトル誘導多粒度手法を提案する。
- 参考スコア(独自算出の注目度): 56.95836951559529
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current referring video object segmentation (R-VOS) techniques extract
conditional kernels from encoded (low-resolution) vision-language features to
segment the decoded high-resolution features. We discovered that this causes
significant feature drift, which the segmentation kernels struggle to perceive
during the forward computation. This negatively affects the ability of
segmentation kernels. To address the drift problem, we propose a
Spectrum-guided Multi-granularity (SgMg) approach, which performs direct
segmentation on the encoded features and employs visual details to further
optimize the masks. In addition, we propose Spectrum-guided Cross-modal Fusion
(SCF) to perform intra-frame global interactions in the spectral domain for
effective multimodal representation. Finally, we extend SgMg to perform
multi-object R-VOS, a new paradigm that enables simultaneous segmentation of
multiple referred objects in a video. This not only makes R-VOS faster, but
also more practical. Extensive experiments show that SgMg achieves
state-of-the-art performance on four video benchmark datasets, outperforming
the nearest competitor by 2.8% points on Ref-YouTube-VOS. Our extended SgMg
enables multi-object R-VOS, runs about 3 times faster while maintaining
satisfactory performance. Code is available at https://github.com/bo-miao/SgMg.
- Abstract(参考訳): 現在の参照ビデオオブジェクトセグメンテーション(r-vos)技術は、符号化された(低解像度)視覚言語の特徴から条件付きカーネルを抽出する。
その結果、セグメンテーション・カーネルが前方計算中に知覚しづらい重要な特徴のドリフトを引き起こすことが判明した。
これはセグメンテーションカーネルの能力に悪影響を及ぼす。
ドリフト問題に対処するために,sgmg(spectrum-guided multi-granularity)アプローチを提案する。
さらに、スペクトル領域におけるフレーム内グローバルな相互作用を効果的に表現するためのスペクトル誘導クロスモーダルフュージョン(SCF)を提案する。
最後に、ビデオ内の複数の参照オブジェクトの同時セグメンテーションを可能にする新しいパラダイムであるマルチオブジェクトR-VOSを実行するためにSgMgを拡張する。
これはR-VOSを高速化するだけでなく、実用性も向上する。
大規模な実験によると、SgMgは4つのビデオベンチマークデータセットで最先端のパフォーマンスを達成し、Ref-YouTube-VOSで2.8%の差で競合相手を上回っている。
我々の拡張SgMgはマルチオブジェクトR-VOSを実現し、良好な性能を維持しながら約3倍高速に動作します。
コードはhttps://github.com/bo-miao/SgMgで入手できる。
関連論文リスト
- Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - ESDMR-Net: A Lightweight Network With Expand-Squeeze and Dual Multiscale
Residual Connections for Medical Image Segmentation [7.921517156237902]
本稿では,拡張型マルチスケール残差ネットワーク(ESDMR-Net)を提案する。
完全な畳み込みネットワークであり、モバイルデバイスのようなリソースに制約のあるコンピューティングハードウェアに適している。
5つの異なる応用例から7つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-17T02:15:49Z) - Global Spectral Filter Memory Network for Video Object Segmentation [33.42697528492191]
本稿では,フレーム内相互作用の促進による半教師付きビデオオブジェクトセグメンテーションについて検討する。
我々は,スペクトル領域における長期空間依存性を学習することにより,フレーム内相互作用を改善するグローバル・スペクトル・フィルタ・メモリ・ネットワーク(GSFM)を提案する。
論文 参考訳(メタデータ) (2022-10-11T16:02:02Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - FAMINet: Learning Real-time Semi-supervised Video Object Segmentation
with Steepest Optimized Optical Flow [21.45623125216448]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオシーケンス内のいくつかの動くオブジェクトをセグメント化することを目的としており、これらのオブジェクトは第一フレームのアノテーションによって指定される。
光の流れは、セグメンテーションの精度を向上させるために、多くの既存の半教師付きVOS法で考慮されてきた。
本稿では,特徴抽出ネットワーク(F),外観ネットワーク(A),運動ネットワーク(M),統合ネットワーク(I)からなるFAMINetを提案する。
論文 参考訳(メタデータ) (2021-11-20T07:24:33Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Efficient Video Object Segmentation with Compressed Video [36.192735485675286]
ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的なフレームワークを提案する。
提案手法は,圧縮したビデオビットストリームの動作と残差に基づいて,選択したベクトルの推測を行い,他のフレームの予測を行う。
ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。
論文 参考訳(メタデータ) (2021-07-26T12:57:04Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。