論文の概要: Associating Objects with Transformers for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2106.02638v1
- Date: Fri, 4 Jun 2021 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:01:03.418884
- Title: Associating Objects with Transformers for Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのためのトランスフォーマーとオブジェクトを関連付ける
- Authors: Zongxin Yang, Yunchao Wei, Yi Yang
- Abstract要約: 本稿では,複数のオブジェクトを一様に一致・復号化するためのAssociating Objects with Transformers (AOT)アプローチを提案する。
AOTは複数のターゲットを同一の高次元埋め込み空間に関連付けるための識別機構を用いる。
第3回大規模ビデオオブジェクトチャレンジでは1位にランクインした。
- 参考スコア(独自算出の注目度): 74.51719591192787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates how to realize better and more efficient embedding
learning to tackle the semi-supervised video object segmentation under
challenging multi-object scenarios. The state-of-the-art methods learn to
decode features with a single positive object and thus have to match and
segment each target separately under multi-object scenarios, consuming multiple
times computing resources. To solve the problem, we propose an Associating
Objects with Transformers (AOT) approach to match and decode multiple objects
uniformly. In detail, AOT employs an identification mechanism to associate
multiple targets into the same high-dimensional embedding space. Thus, we can
simultaneously process the matching and segmentation decoding of multiple
objects as efficiently as processing a single object. For sufficiently modeling
multi-object association, a Long Short-Term Transformer is designed for
constructing hierarchical matching and propagation. We conduct extensive
experiments on both multi-object and single-object benchmarks to examine AOT
variant networks with different complexities. Particularly, our AOT-L
outperforms all the state-of-the-art competitors on three popular benchmarks,
i.e., YouTube-VOS (83.7% J&F), DAVIS 2017 (83.0%), and DAVIS 2016 (91.0%),
while keeping better multi-object efficiency. Meanwhile, our AOT-T can maintain
real-time multi-object speed on above benchmarks. We ranked 1st in the 3rd
Large-scale Video Object Segmentation Challenge. The code will be publicly
available at https://github.com/z-x-yang/AOT.
- Abstract(参考訳): 本稿では,マルチオブジェクトシナリオに挑戦しながら,半教師付き映像オブジェクトセグメンテーションに取り組むための,より良く効率的な組込み学習を実現する方法について検討する。
最先端の手法は、1つの正のオブジェクトで機能をデコードし、複数のオブジェクトのシナリオで各ターゲットをマッチして分割し、複数のコンピューティングリソースを消費する。
そこで本研究では,複数のオブジェクトを一様に一致・復号化するためのAssociating Objects with Transformers (AOT)アプローチを提案する。
詳しくは、aotは複数のターゲットを同一の高次元埋め込み空間に関連付ける識別機構を採用している。
したがって、複数のオブジェクトのマッチングとセグメント化デコーディングを同時に処理できると同時に、単一のオブジェクトの処理も効率的に行うことができる。
多目的アソシエーションを十分にモデル化するために、階層的マッチングと伝播を構築するためにLong Short-Term Transformerを設計する。
マルチオブジェクトとシングルオブジェクトのベンチマークにおいて、異なる複雑さを持つAOT変種ネットワークを調べるために広範な実験を行う。
特に、AOT-Lは、YouTube-VOS (83.7% J&F)、DAVIS 2017 (83.0%)、DAVIS 2016 (91.0%)の3つの人気のあるベンチマークにおいて、最先端の競合他社よりも優れています。
一方、AOT-Tは上記のベンチマークでリアルタイムのマルチオブジェクト速度を維持できます。
第3回大規模ビデオオブジェクトセグメンテーションチャレンジで1位にランクインした。
コードはhttps://github.com/z-x-yang/AOT.comで公開される。
関連論文リスト
- OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - ISAR: A Benchmark for Single- and Few-Shot Object Instance Segmentation
and Re-Identification [24.709695178222862]
単発および少数発のオブジェクト識別のためのベンチマークおよびベースライン手法であるISARを提案する。
地層構造意味アノテーションを用いた半合成的ビデオシーケンスデータセットを提供する。
我々のベンチマークは、マルチオブジェクト追跡、ビデオオブジェクト、再識別の新たな研究動向と一致している。
論文 参考訳(メタデータ) (2023-11-05T18:51:33Z) - CASAPose: Class-Adaptive and Semantic-Aware Multi-Object Pose Estimation [2.861848675707602]
CASAPoseと呼ばれる新しい単一ステージアーキテクチャを提案する。
RGB画像中の複数の異なるオブジェクトのポーズ推定のための2D-3D対応を1パスで決定する。
高速でメモリ効率が高く、複数のオブジェクトに対して高い精度を実現する。
論文 参考訳(メタデータ) (2022-10-11T10:20:01Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。