論文の概要: Scalable Video Object Segmentation with Simplified Framework
- arxiv url: http://arxiv.org/abs/2308.09903v1
- Date: Sat, 19 Aug 2023 04:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:20:06.153366
- Title: Scalable Video Object Segmentation with Simplified Framework
- Title(参考訳): Simplified Frameworkによるスケーラブルなビデオオブジェクトセグメンテーション
- Authors: Qiangqiang Wu and Tianyu Yang and Wei WU and Antoni Chan
- Abstract要約: 本稿では,機能抽出とマッチングを行うスケーラブルなVOS(SimVOS)フレームワークを提案する。
SimVOSは拡張性のあるViTバックボーンを使用して、クエリと参照の同時抽出とマッチングを行う。
実験により,我々のSimVOSは,人気ビデオオブジェクトセグメンテーションベンチマークの最先端結果を得た。
- 参考スコア(独自算出の注目度): 21.408446548059956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current popular methods for video object segmentation (VOS) implement
feature matching through several hand-crafted modules that separately perform
feature extraction and matching. However, the above hand-crafted designs
empirically cause insufficient target interaction, thus limiting the dynamic
target-aware feature learning in VOS. To tackle these limitations, this paper
presents a scalable Simplified VOS (SimVOS) framework to perform joint feature
extraction and matching by leveraging a single transformer backbone.
Specifically, SimVOS employs a scalable ViT backbone for simultaneous feature
extraction and matching between query and reference features. This design
enables SimVOS to learn better target-ware features for accurate mask
prediction. More importantly, SimVOS could directly apply well-pretrained ViT
backbones (e.g., MAE) for VOS, which bridges the gap between VOS and
large-scale self-supervised pre-training. To achieve a better performance-speed
trade-off, we further explore within-frame attention and propose a new token
refinement module to improve the running speed and save computational cost.
Experimentally, our SimVOS achieves state-of-the-art results on popular video
object segmentation benchmarks, i.e., DAVIS-2017 (88.0% J&F), DAVIS-2016 (92.9%
J&F) and YouTube-VOS 2019 (84.2% J&F), without applying any synthetic video or
BL30K pre-training used in previous VOS approaches.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)の現在の一般的な方法は、複数の手作りモジュールを通じて特徴抽出とマッチングを別々に行う機能マッチングを実装している。
しかし、上記の手作りの設計は、実証的にターゲットの相互作用が不十分なため、VOSにおける動的ターゲット認識機能学習が制限される。
これらの制約に対処するために,単一のトランスフォーマーバックボーンを活用することで,共同特徴抽出とマッチングを行うスケーラブルなSimplified VOS(SimVOS)フレームワークを提案する。
特にsimvosでは,クエリと参照機能の同時抽出とマッチングに,スケーラブルなvitバックボーンを採用している。
この設計により、SimVOSは正確なマスク予測のためのより良いターゲットウェア機能を学ぶことができる。
さらに重要なことに、SimVOSは、VOSと大規模自己監督型事前トレーニングのギャップを埋めるVOSに、よく訓練されたViTバックボーン(例えば、MAE)を直接適用することができた。
性能と速度のトレードオフを改善するため,さらにフレーム内注目度を探求し,ランニング速度の向上と計算コストの削減を目的とした新しいトークン改質モジュールを提案する。
実験により、我々のSimVOSは、一般的なビデオオブジェクトセグメンテーションベンチマーク、すなわちDAVIS-2017 (88.0% J&F)、DAVIS-2016 (92.9% J&F)、YouTube-VOS 2019 (84.2% J&F)で、合成ビデオやBL30K事前トレーニングを適用せずに、最先端の結果を達成する。
関連論文リスト
- OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
Framework [24.947436083365925]
OneVOSは、VOSのコアコンポーネントをAll-in-One Transformerと統合する新しいフレームワークである。
OneVOSは、7つのデータセット、特に70.1%と66.4%の複雑なLVOSとMOSEデータセットにおいて、最先端のパフォーマンスを達成し、それぞれ4.2%と7.0%の従来の最先端メソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-13T16:38:26Z) - 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文 参考訳(メタデータ) (2023-09-05T08:34:23Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。
注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。
提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文 参考訳(メタデータ) (2021-01-21T20:06:12Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。