論文の概要: Decoupling Features in Hierarchical Propagation for Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2210.09782v1
- Date: Tue, 18 Oct 2022 11:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:07:18.203575
- Title: Decoupling Features in Hierarchical Propagation for Video Object
Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのための階層的伝播における特徴の分離
- Authors: Zongxin Yang, Yi Yang
- Abstract要約: 本稿では、半教師付きビデオオブジェクト(VOS)のためのより効率的な階層的伝搬法の開発に焦点をあてる。
最近開発されたAssociating Objects with Transformers (AOT)は、視覚トランスフォーマーに基づいて、VOSに階層的伝播を導入する。
階層的伝播は、過去のフレームから現在のフレームへ徐々に情報を伝達し、現在のフレームの特徴をオブジェクトに依存しないものからオブジェクト固有のものに伝達することができる。
オブジェクト固有の情報の増加は、ディープ・プログレス・レイヤにおけるオブジェクトに依存しない視覚情報の損失を必然的に招きかねない。
- 参考スコア(独自算出の注目度): 37.450660141153065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on developing a more effective method of hierarchical
propagation for semi-supervised Video Object Segmentation (VOS). Based on
vision transformers, the recently-developed Associating Objects with
Transformers (AOT) approach introduces hierarchical propagation into VOS and
has shown promising results. The hierarchical propagation can gradually
propagate information from past frames to the current frame and transfer the
current frame feature from object-agnostic to object-specific. However, the
increase of object-specific information will inevitably lead to the loss of
object-agnostic visual information in deep propagation layers. To solve such a
problem and further facilitate the learning of visual embeddings, this paper
proposes a Decoupling Features in Hierarchical Propagation (DeAOT) approach.
Firstly, DeAOT decouples the hierarchical propagation of object-agnostic and
object-specific embeddings by handling them in two independent branches.
Secondly, to compensate for the additional computation from dual-branch
propagation, we propose an efficient module for constructing hierarchical
propagation, i.e., Gated Propagation Module, which is carefully designed with
single-head attention. Extensive experiments show that DeAOT significantly
outperforms AOT in both accuracy and efficiency. On YouTube-VOS, DeAOT can
achieve 86.0% at 22.4fps and 82.0% at 53.4fps. Without test-time augmentations,
we achieve new state-of-the-art performance on four benchmarks, i.e.,
YouTube-VOS (86.2%), DAVIS 2017 (86.2%), DAVIS 2016 (92.9%), and VOT 2020
(0.622). Project page: https://github.com/z-x-yang/AOT.
- Abstract(参考訳): 本稿では,半教師付きビデオオブジェクトセグメンテーション(vos)のための,より効果的な階層的伝播手法の開発に着目する。
最近開発されたAOT(Associating Objects with Transformers)アプローチは、視覚トランスフォーマーに基づいて、VOSに階層的伝播を導入し、有望な結果を示した。
階層的伝播は、過去のフレームから現在のフレームへ徐々に情報を伝達し、現在のフレームの特徴をオブジェクトに依存しないものからオブジェクト固有のものに伝達することができる。
しかし、オブジェクト固有の情報の増加は、必然的に、深い伝播層においてオブジェクトに依存しない視覚的情報を失うことになる。
このような問題の解決と、視覚的埋め込みの学習を容易にするために、階層的伝播におけるデカップリング特徴(DeAOT)を提案する。
第一に、deaotは2つの独立したブランチでそれらを処理することによって、オブジェクト非依存およびオブジェクト固有の埋め込みの階層的伝播を分離する。
次に,二重分岐伝播による付加計算を補うために,階層的伝播,すなわち,単頭注意で慎重に設計されたゲート伝搬モジュールを構築するための効率的なモジュールを提案する。
大規模な実験により、DeAOTは精度と効率の両方でAOTを著しく上回ることがわかった。
YouTube-VOSでは、22.4fpsで86.0%、53.4fpsで82.0%を達成することができる。
テスト時間拡張がなければ、YouTube-VOS (86.2%)、DAVIS 2017 (86.2%)、DAVIS 2016 (92.9%)、VOT 2020 (0.622)の4つのベンチマークで、新しい最先端のパフォーマンスを達成する。
プロジェクトページ: https://github.com/z-x-yang/AOT.com
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation [0.4487265603408873]
DeVOS(Deformable VOS)は,メモリベースマッチングと移動誘導伝搬を組み合わせたビデオオブジェクトのアーキテクチャである。
DAVIS 2017 val と test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) でトップランクを達成した。
論文 参考訳(メタデータ) (2024-05-11T14:57:22Z) - OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
Framework [24.947436083365925]
OneVOSは、VOSのコアコンポーネントをAll-in-One Transformerと統合する新しいフレームワークである。
OneVOSは、7つのデータセット、特に70.1%と66.4%の複雑なLVOSとMOSEデータセットにおいて、最先端のパフォーマンスを達成し、それぞれ4.2%と7.0%の従来の最先端メソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-13T16:38:26Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
論文 参考訳(メタデータ) (2023-07-05T03:43:15Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - TransVOS: Video Object Segmentation with Transformers [13.311777431243296]
本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。
人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。
実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
論文 参考訳(メタデータ) (2021-06-01T15:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。