論文の概要: Associating Objects with Scalable Transformers for Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2203.11442v2
- Date: Thu, 24 Mar 2022 03:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 11:13:49.110799
- Title: Associating Objects with Scalable Transformers for Video Object
Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのためのスケーラブルトランスフォーマーとオブジェクトを関連付ける
- Authors: Zongxin Yang, Jiaxu Miao, Xiaohan Wang, Yunchao Wei, Yi Yang
- Abstract要約: 本稿では,複数のオブジェクトを協調的かつ協調的にマッチング・復号するAssociating Objects with Transformers (AOT)アプローチを提案する。
詳しくは、AOTは複数のターゲットを同じ高次元の埋め込み空間に関連付けるための識別機構を使用している。
3つの人気のあるベンチマークで最先端のパフォーマンスを新たに達成する。
- 参考スコア(独自算出の注目度): 74.43311945044807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates how to realize better and more efficient embedding
learning to tackle the semi-supervised video object segmentation under
challenging multi-object scenarios. The state-of-the-art methods learn to
decode features with a single positive object and thus have to match and
segment each target separately under multi-object scenarios, consuming multiple
times computation resources. To solve the problem, we propose an Associating
Objects with Transformers (AOT) approach to match and decode multiple objects
jointly and collaboratively. In detail, AOT employs an identification mechanism
to associate multiple targets into the same high-dimensional embedding space.
Thus, we can simultaneously process multiple objects' matching and segmentation
decoding as efficiently as processing a single object. To sufficiently model
multi-object association, a Long Short-Term Transformer (LSTT) is devised to
construct hierarchical matching and propagation. Based on AOT, we further
propose a more flexible and robust framework, Associating Objects with Scalable
Transformers (AOST), in which a scalable version of LSTT is designed to enable
run-time adaptation of accuracy-efficiency trade-offs. Besides, AOST introduces
a better layer-wise manner to couple identification and vision embeddings. We
conduct extensive experiments on multi-object and single-object benchmarks to
examine AOT series frameworks. Compared to the state-of-the-art competitors,
our methods can maintain times of run-time efficiency with superior
performance. Notably, we achieve new state-of-the-art performance on three
popular benchmarks, i.e., YouTube-VOS (86.5%), DAVIS 2017 Val/Test
(87.0%/84.7%), and DAVIS 2016 (93.0%). Project page:
https://github.com/z-x-yang/AOT.
- Abstract(参考訳): 本稿では,マルチオブジェクトシナリオに挑戦しながら,半教師付き映像オブジェクトセグメンテーションに取り組むための,より良く効率的な組込み学習を実現する方法について検討する。
最先端のメソッドは、1つの正のオブジェクトで機能をデコードし、複数のオブジェクトのシナリオで各ターゲットをマッチして分割し、複数の計算リソースを消費する。
そこで本研究では,複数のオブジェクトを協調的かつ協調的にマッチング・復号するAssociating Objects with Transformers (AOT)アプローチを提案する。
詳しくは、aotは複数のターゲットを同一の高次元埋め込み空間に関連付ける識別機構を採用している。
したがって、複数のオブジェクトのマッチングとセグメンテーションデコーディングを同時に処理できると同時に、単一のオブジェクトを処理できる。
多目的アソシエーションを十分にモデル化するために、Long Short-Term Transformer (LSTT) を考案し、階層的マッチングと伝播を構築する。
aotに基づいて、より柔軟でロバストなフレームワークを提案し、スケーラブルなlsttのバージョンが精度と効率のトレードオフをランタイムに適応できるように設計されているスケーラブルなトランスフォーマー(aost)とオブジェクトを関連付ける。
さらにaostは、識別と視覚埋め込みを結合する、より優れたレイヤ指向の方法も導入している。
我々は、AOTシリーズのフレームワークを調べるために、マルチオブジェクトとシングルオブジェクトのベンチマークに関する広範な実験を行う。
最先端の競合と比較すると,本手法は実行時の効率を向上し,性能を向上することができる。
特に、YouTube-VOS (86.5%)、DAVIS 2017 Val/Test (87.0%/84.7%)、DAVIS 2016 (93.0%)の3つの人気のあるベンチマークで、最先端のパフォーマンスを実現しています。
プロジェクトページ: https://github.com/z-x-yang/AOT.com
関連論文リスト
- OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
Framework [24.947436083365925]
OneVOSは、VOSのコアコンポーネントをAll-in-One Transformerと統合する新しいフレームワークである。
OneVOSは、7つのデータセット、特に70.1%と66.4%の複雑なLVOSとMOSEデータセットにおいて、最先端のパフォーマンスを達成し、それぞれ4.2%と7.0%の従来の最先端メソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-13T16:38:26Z) - Transformer Network for Multi-Person Tracking and Re-Identification in
Unconstrained Environment [0.6798775532273751]
マルチオブジェクトトラッキング(MOT)は、監視、スポーツ分析、自動運転、協調ロボットなど、さまざまな分野に深く応用されている。
我々は、オブジェクト検出とアイデンティティリンクを単一のエンドツーエンドのトレーニング可能なフレームワーク内にマージする統合MOT手法を提唱した。
本システムでは,記憶時記憶モジュールの高機能化を図り,アグリゲータを用いて効果的に記憶時記憶モジュールを符号化する。
論文 参考訳(メタデータ) (2023-12-19T08:15:22Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Associating Objects with Transformers for Video Object Segmentation [74.51719591192787]
本稿では,複数のオブジェクトを一様に一致・復号化するためのAssociating Objects with Transformers (AOT)アプローチを提案する。
AOTは複数のターゲットを同一の高次元埋め込み空間に関連付けるための識別機構を用いる。
第3回大規模ビデオオブジェクトチャレンジでは1位にランクインした。
論文 参考訳(メタデータ) (2021-06-04T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。