論文の概要: VITA: Video Instance Segmentation via Object Token Association
- arxiv url: http://arxiv.org/abs/2206.04403v1
- Date: Thu, 9 Jun 2022 10:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 14:02:28.507708
- Title: VITA: Video Instance Segmentation via Object Token Association
- Title(参考訳): VITA:Object Token Associationによるビデオインスタンスセグメンテーション
- Authors: Miran Heo, Sukjun Hwang, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim
- Abstract要約: VITAは、既製のTransformerベースのイメージインスタンスセグメンテーションモデルの上に構築されたシンプルな構造である。
バックボーン機能を使わずにフレームレベルの時間的オブジェクトトークンを関連付けることで、ビデオレベルの理解を実現する。
4 AP、49.8 AP-VIS 2019 & 2021、19.6 AP on OVIS。
- 参考スコア(独自算出の注目度): 56.17453513956142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel paradigm for offline Video Instance Segmentation (VIS),
based on the hypothesis that explicit object-oriented information can be a
strong clue for understanding the context of the entire sequence. To this end,
we propose VITA, a simple structure built on top of an off-the-shelf
Transformer-based image instance segmentation model. Specifically, we use an
image object detector as a means of distilling object-specific contexts into
object tokens. VITA accomplishes video-level understanding by associating
frame-level object tokens without using spatio-temporal backbone features. By
effectively building relationships between objects using the condensed
information, VITA achieves the state-of-the-art on VIS benchmarks with a
ResNet-50 backbone: 49.8 AP, 45.7 AP on YouTube-VIS 2019 & 2021 and 19.6 AP on
OVIS. Moreover, thanks to its object token-based structure that is disjoint
from the backbone features, VITA shows several practical advantages that
previous offline VIS methods have not explored - handling long and
high-resolution videos with a common GPU and freezing a frame-level detector
trained on image domain. Code will be made available at
https://github.com/sukjunhwang/VITA.
- Abstract(参考訳): オフラインビデオインスタンスセグメンテーション(VIS)のための新しいパラダイムを紹介し、明示的なオブジェクト指向情報はシーケンス全体のコンテキストを理解するための強力な手がかりになり得るという仮説に基づく。
そこで本研究では,既製のトランスフォーマーベースイメージインスタンスセグメンテーションモデル上に構築したシンプルな構造であるvitaを提案する。
具体的には、オブジェクト固有のコンテキストをオブジェクトトークンに蒸留する手段として、イメージオブジェクト検出器を用いる。
VITAは、時空間のバックボーン機能を使わずにフレームレベルのオブジェクトトークンを関連付けることで、ビデオレベルの理解を実現する。
縮合情報を用いてオブジェクト間の関係を効果的に構築することにより、VITAはResNet-50のバックボーンで最先端のVISベンチマークを達成している: YouTube-VIS 2019 & 2021 で 49.8 AP、45.7 AP、OVISで 19.6 AP。
さらに、バックボーン機能から切り離されたオブジェクトトークンベースの構造のおかげで、VITAは、従来のオフラインVISメソッドが探索しなかったいくつかの実用的な利点を示している。
コードはhttps://github.com/sukjunhwang/vitaで入手できる。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - Online Video Instance Segmentation via Robust Context Fusion [36.376900904288966]
ビデオインスタンスセグメンテーション(VIS)は、ビデオシーケンス内のオブジェクトインスタンスを分類、セグメンテーション、追跡することを目的としている。
最近のトランスフォーマーベースのニューラルネットワークは、VISタスクのモデリングの強力な能力を実証している。
そこで本稿では,VISをオンライン方式で扱うための堅牢なコンテキスト融合ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T15:04:50Z) - Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens [93.98605636451806]
StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2022-06-13T17:45:05Z) - Temporally Efficient Vision Transformer for Video Instance Segmentation [40.32376033054237]
ビデオインスタンスセグメンテーション(VIS)のためのTeViT(Temporally Efficient Vision Transformer)を提案する。
TeViTはほぼ畳み込みなしで、トランスフォーマーバックボーンとクエリベースのビデオインスタンスセグメンテーションヘッドを含んでいる。
広く採用されている3つのVISベンチマークでは、TeViTは最先端の結果を取得し、高い推論速度を維持する。
論文 参考訳(メタデータ) (2022-04-18T17:09:20Z) - HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images [123.65233334380251]
オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。
その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
論文 参考訳(メタデータ) (2021-12-16T18:59:53Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Occluded Video Instance Segmentation [133.80567761430584]
OVISと呼ばれる大規模なデータセットを収集し、ビデオインスタンスのセグメンテーションをブロックする。
OVISは25のセマンティックカテゴリから296kの高品質なインスタンスマスクで構成されている。
最先端のアルゴリズムによって達成された最も高いAPは14.4であり、現実世界のシナリオでオブジェクト、インスタンス、ビデオを理解するための初期段階にあることを示している。
論文 参考訳(メタデータ) (2021-02-02T15:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。