論文の概要: Scalable Video Object Segmentation with Identification Mechanism
- arxiv url: http://arxiv.org/abs/2203.11442v6
- Date: Mon, 3 Jul 2023 04:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 16:17:28.652892
- Title: Scalable Video Object Segmentation with Identification Mechanism
- Title(参考訳): 識別機構を有するスケーラブルビデオオブジェクト分割
- Authors: Zongxin Yang, Xiaohan Wang, Jiaxu Miao, Yunchao Wei, Wenguan Wang, Yi
Yang
- Abstract要約: 本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
以前のVOSメソッドは、単一の正のオブジェクトで機能をデコードし、マルチオブジェクト表現の学習を制限する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 102.52315557080561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper delves into the challenges of achieving scalable and effective
multi-object modeling for semi-supervised Video Object Segmentation (VOS).
Previous VOS methods decode features with a single positive object, limiting
the learning of multi-object representation as they must match and segment each
target separately under multi-object scenarios. Additionally, earlier
techniques catered to specific application objectives and lacked the
flexibility to fulfill different speed-accuracy requirements. To address these
problems, we present two innovative approaches, Associating Objects with
Transformers (AOT) and Associating Objects with Scalable Transformers (AOST).
In pursuing effective multi-object modeling, AOT introduces the IDentification
(ID) mechanism to allocate each object a unique identity. This approach enables
the network to model the associations among all objects simultaneously, thus
facilitating the tracking and segmentation of objects in a single network pass.
To address the challenge of inflexible deployment, AOST further integrates
scalable long short-term transformers that incorporate layer-wise ID-based
attention and scalable supervision. This overcomes ID embeddings'
representation limitations and enables online architecture scalability in VOS
for the first time. Given the absence of a benchmark for VOS involving densely
multi-object annotations, we propose a challenging Video Object Segmentation in
the Wild (VOSW) benchmark to validate our approaches. We evaluated various AOT
and AOST variants using extensive experiments across VOSW and five
commonly-used VOS benchmarks. Our approaches surpass the state-of-the-art
competitors and display exceptional efficiency and scalability consistently
across all six benchmarks. Moreover, we notably achieved the 1st position in
the 3rd Large-scale Video Object Segmentation Challenge.
- Abstract(参考訳): 本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのスケーラブルで効果的なマルチオブジェクトモデリングを実現するための課題について述べる。
従来のvosメソッドは単一の正のオブジェクトで特徴をデコードし、複数のオブジェクトの表現の学習を制限する。
さらに、以前のテクニックは特定のアプリケーション目標に適合し、異なるスピード精度要件を満たす柔軟性に欠けていた。
これらの問題を解決するために,AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)という2つの革新的なアプローチを提案する。
効果的なマルチオブジェクトモデリングの追求において、AOTは各オブジェクトにユニークなIDを割り当てるためのID(ID)メカニズムを導入する。
このアプローチにより、ネットワークはすべてのオブジェクト間の関連性を同時にモデル化し、単一のネットワークパスにおけるオブジェクトの追跡とセグメンテーションを容易にする。
非フレキシブルなデプロイメントの課題に対処するため、AOSTはさらに、レイヤワイドIDベースの注意とスケーラブルな監視を含む、スケーラブルな長期的な短期トランスフォーマーを統合する。
これはID埋め込みの表現制限を克服し、VOSにおけるオンラインアーキテクチャのスケーラビリティを初めて実現します。
マルチオブジェクトアノテーションを含むVOSのベンチマークが欠如していることを踏まえ,我々のアプローチを検証するために,ビデオオブジェクトセグメンテーション・イン・ザ・ワイルド(VOSW)ベンチマークを提案する。
VOSWおよび5種類のVOSベンチマークを用いて,様々なAOTおよびAOST変異体の評価を行った。
当社のアプローチは最先端のコンペティタを上回っており、6つのベンチマークで一貫して優れた効率性とスケーラビリティを示しています。
また,第3回大規模映像オブジェクトセグメンテーションチャレンジにおいて,第1位となった。
関連論文リスト
- OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
Framework [24.947436083365925]
OneVOSは、VOSのコアコンポーネントをAll-in-One Transformerと統合する新しいフレームワークである。
OneVOSは、7つのデータセット、特に70.1%と66.4%の複雑なLVOSとMOSEデータセットにおいて、最先端のパフォーマンスを達成し、それぞれ4.2%と7.0%の従来の最先端メソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-13T16:38:26Z) - Transformer Network for Multi-Person Tracking and Re-Identification in
Unconstrained Environment [0.6798775532273751]
マルチオブジェクトトラッキング(MOT)は、監視、スポーツ分析、自動運転、協調ロボットなど、さまざまな分野に深く応用されている。
我々は、オブジェクト検出とアイデンティティリンクを単一のエンドツーエンドのトレーニング可能なフレームワーク内にマージする統合MOT手法を提唱した。
本システムでは,記憶時記憶モジュールの高機能化を図り,アグリゲータを用いて効果的に記憶時記憶モジュールを符号化する。
論文 参考訳(メタデータ) (2023-12-19T08:15:22Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Associating Objects with Transformers for Video Object Segmentation [74.51719591192787]
本稿では,複数のオブジェクトを一様に一致・復号化するためのAssociating Objects with Transformers (AOT)アプローチを提案する。
AOTは複数のターゲットを同一の高次元埋め込み空間に関連付けるための識別機構を用いる。
第3回大規模ビデオオブジェクトチャレンジでは1位にランクインした。
論文 参考訳(メタデータ) (2021-06-04T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。