論文の概要: Scalable Video Object Segmentation with Identification Mechanism
- arxiv url: http://arxiv.org/abs/2203.11442v7
- Date: Thu, 25 Jan 2024 13:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 19:00:48.016524
- Title: Scalable Video Object Segmentation with Identification Mechanism
- Title(参考訳): 識別機構を有するスケーラブルビデオオブジェクト分割
- Authors: Zongxin Yang, Jiaxu Miao, Yunchao Wei, Wenguan Wang, Xiaohan Wang, Yi
Yang
- Abstract要約: 本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
- 参考スコア(独自算出の注目度): 132.90013478231032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper delves into the challenges of achieving scalable and effective
multi-object modeling for semi-supervised Video Object Segmentation (VOS).
Previous VOS methods decode features with a single positive object, limiting
the learning of multi-object representation as they must match and segment each
target separately under multi-object scenarios. Additionally, earlier
techniques catered to specific application objectives and lacked the
flexibility to fulfill different speed-accuracy requirements. To address these
problems, we present two innovative approaches, Associating Objects with
Transformers (AOT) and Associating Objects with Scalable Transformers (AOST).
In pursuing effective multi-object modeling, AOT introduces the IDentification
(ID) mechanism to allocate each object a unique identity. This approach enables
the network to model the associations among all objects simultaneously, thus
facilitating the tracking and segmentation of objects in a single network pass.
To address the challenge of inflexible deployment, AOST further integrates
scalable long short-term transformers that incorporate scalable supervision and
layer-wise ID-based attention. This enables online architecture scalability in
VOS for the first time and overcomes ID embeddings' representation limitations.
Given the absence of a benchmark for VOS involving densely multi-object
annotations, we propose a challenging Video Object Segmentation in the Wild
(VOSW) benchmark to validate our approaches. We evaluated various AOT and AOST
variants using extensive experiments across VOSW and five commonly used VOS
benchmarks, including YouTube-VOS 2018 & 2019 Val, DAVIS-2017 Val & Test, and
DAVIS-2016. Our approaches surpass the state-of-the-art competitors and display
exceptional efficiency and scalability consistently across all six benchmarks.
Project page: https://github.com/yoxu515/aot-benchmark.
- Abstract(参考訳): 本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのスケーラブルで効果的なマルチオブジェクトモデリングを実現するための課題について述べる。
従来のvosメソッドは単一の正のオブジェクトで特徴をデコードし、複数のオブジェクトの表現の学習を制限する。
さらに、以前のテクニックは特定のアプリケーション目標に適合し、異なるスピード精度要件を満たす柔軟性に欠けていた。
これらの問題を解決するために,AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)という2つの革新的なアプローチを提案する。
効果的なマルチオブジェクトモデリングの追求において、AOTは各オブジェクトにユニークなIDを割り当てるためのID(ID)メカニズムを導入する。
このアプローチにより、ネットワークはすべてのオブジェクト間の関連性を同時にモデル化し、単一のネットワークパスにおけるオブジェクトの追跡とセグメンテーションを容易にする。
非フレキシブルなデプロイメントの課題に対処するため、AOSTはさらに、スケーラブルな監視とレイヤ単位のIDベースの注意を取り入れた、スケーラブルな長期的な短期トランスフォーマーを統合している。
これにより、VOSで初めてオンラインアーキテクチャのスケーラビリティが可能になり、ID埋め込みの表現制限を克服できる。
マルチオブジェクトアノテーションを含むVOSのベンチマークが欠如していることを踏まえ,我々のアプローチを検証するために,ビデオオブジェクトセグメンテーション・イン・ザ・ワイルド(VOSW)ベンチマークを提案する。
VOSWと一般的に使用されているVOSベンチマーク5つ、YouTube-VOS 2018と2019 Val、DAVIS-2017 Val & Test、DAVIS-2016を含む、様々なAOTおよびAOSTのバリエーションを評価した。
当社のアプローチは最先端のコンペティタを上回っており、6つのベンチマークで一貫して優れた効率性とスケーラビリティを示しています。
プロジェクトページ: https://github.com/yoxu515/aot-benchmark
関連論文リスト
- OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
Framework [24.947436083365925]
OneVOSは、VOSのコアコンポーネントをAll-in-One Transformerと統合する新しいフレームワークである。
OneVOSは、7つのデータセット、特に70.1%と66.4%の複雑なLVOSとMOSEデータセットにおいて、最先端のパフォーマンスを達成し、それぞれ4.2%と7.0%の従来の最先端メソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-13T16:38:26Z) - Transformer Network for Multi-Person Tracking and Re-Identification in
Unconstrained Environment [0.6798775532273751]
マルチオブジェクトトラッキング(MOT)は、監視、スポーツ分析、自動運転、協調ロボットなど、さまざまな分野に深く応用されている。
我々は、オブジェクト検出とアイデンティティリンクを単一のエンドツーエンドのトレーニング可能なフレームワーク内にマージする統合MOT手法を提唱した。
本システムでは,記憶時記憶モジュールの高機能化を図り,アグリゲータを用いて効果的に記憶時記憶モジュールを符号化する。
論文 参考訳(メタデータ) (2023-12-19T08:15:22Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Associating Objects with Transformers for Video Object Segmentation [74.51719591192787]
本稿では,複数のオブジェクトを一様に一致・復号化するためのAssociating Objects with Transformers (AOT)アプローチを提案する。
AOTは複数のターゲットを同一の高次元埋め込み空間に関連付けるための識別機構を用いる。
第3回大規模ビデオオブジェクトチャレンジでは1位にランクインした。
論文 参考訳(メタデータ) (2021-06-04T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。