論文の概要: OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
Framework
- arxiv url: http://arxiv.org/abs/2403.08682v1
- Date: Wed, 13 Mar 2024 16:38:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:38:30.697462
- Title: OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
Framework
- Title(参考訳): OneVOS:オールインワンのトランスフォーマーでビデオオブジェクトのセグメンテーションを統一
枠組み
- Authors: Wanyun Li, Pinxue Guo, Xinyu Zhou, Lingyi Hong, Yangji He, Xiangyu
Zheng, Wei Zhang and Wenqiang Zhang
- Abstract要約: OneVOSは、VOSのコアコンポーネントをAll-in-One Transformerと統合する新しいフレームワークである。
OneVOSは、7つのデータセット、特に70.1%と66.4%の複雑なLVOSとMOSEデータセットにおいて、最先端のパフォーマンスを達成し、それぞれ4.2%と7.0%の従来の最先端メソッドを上回っている。
- 参考スコア(独自算出の注目度): 24.947436083365925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary Video Object Segmentation (VOS) approaches typically consist
stages of feature extraction, matching, memory management, and multiple objects
aggregation. Recent advanced models either employ a discrete modeling for these
components in a sequential manner, or optimize a combined pipeline through
substructure aggregation. However, these existing explicit staged approaches
prevent the VOS framework from being optimized as a unified whole, leading to
the limited capacity and suboptimal performance in tackling complex videos. In
this paper, we propose OneVOS, a novel framework that unifies the core
components of VOS with All-in-One Transformer. Specifically, to unify all
aforementioned modules into a vision transformer, we model all the features of
frames, masks and memory for multiple objects as transformer tokens, and
integrally accomplish feature extraction, matching and memory management of
multiple objects through the flexible attention mechanism. Furthermore, a
Unidirectional Hybrid Attention is proposed through a double decoupling of the
original attention operation, to rectify semantic errors and ambiguities of
stored tokens in OneVOS framework. Finally, to alleviate the storage burden and
expedite inference, we propose the Dynamic Token Selector, which unveils the
working mechanism of OneVOS and naturally leads to a more efficient version of
OneVOS. Extensive experiments demonstrate the superiority of OneVOS, achieving
state-of-the-art performance across 7 datasets, particularly excelling in
complex LVOS and MOSE datasets with 70.1% and 66.4% $J \& F$ scores, surpassing
previous state-of-the-art methods by 4.2% and 7.0%, respectively. And our code
will be available for reproducibility and further research.
- Abstract(参考訳): 現代のビデオオブジェクトセグメンテーション(VOS)アプローチは、典型的には、特徴抽出、マッチング、メモリ管理、複数のオブジェクト集約からなる。
最近の高度なモデルでは、これらのコンポーネントを逐次的に個別にモデリングするか、サブストラクチャアグリゲーションを通じて組み合わせたパイプラインを最適化する。
しかし、これらの既存の明示的なアプローチは、VOSフレームワークが統一された全体として最適化されることを防ぎ、複雑なビデオに対処する際の限られたキャパシティと準最適性能をもたらす。
本稿では,All-in-One TransformerとVOSのコアコンポーネントを統合する新しいフレームワークであるOneVOSを提案する。
具体的には、上記すべてのモジュールを視覚変換器に統合するために、複数のオブジェクトに対するフレーム、マスク、メモリの全ての特徴をトランスフォーマートークンとしてモデル化し、フレキシブルアテンション機構を通じて複数のオブジェクトの特徴抽出、マッチング、メモリ管理を一体的に達成する。
さらに、OneVOSフレームワークに格納されたトークンの意味的誤りとあいまいさを正すために、元々の注意操作を二重に分離することで、一方向ハイブリッド注意を提案する。
最後に, ストレージ負荷を軽減し, 推論の迅速化を図るため, 動的トークンセレクタを提案する。
大規模な実験は、OneVOSの優位性を示し、7つのデータセット、特に70.1%と66.4%のスコアを持つ複雑なLVOSとMOSEデータセットにおいて、それぞれ4.2%と7.0%の先行した最先端メソッドを上回り、最先端のパフォーマンスを達成する。
私たちのコードは再現性とさらなる研究のために利用できます。
関連論文リスト
- Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - Scalable Video Object Segmentation with Simplified Framework [21.408446548059956]
本稿では,機能抽出とマッチングを行うスケーラブルなVOS(SimVOS)フレームワークを提案する。
SimVOSは拡張性のあるViTバックボーンを使用して、クエリと参照の同時抽出とマッチングを行う。
実験により,我々のSimVOSは,人気ビデオオブジェクトセグメンテーションベンチマークの最先端結果を得た。
論文 参考訳(メタデータ) (2023-08-19T04:30:48Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - TransVOS: Video Object Segmentation with Transformers [13.311777431243296]
本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。
人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。
実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
論文 参考訳(メタデータ) (2021-06-01T15:56:10Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。