論文の概要: TubeFormer-DeepLab: Video Mask Transformer
- arxiv url: http://arxiv.org/abs/2205.15361v1
- Date: Mon, 30 May 2022 18:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:50:56.720024
- Title: TubeFormer-DeepLab: Video Mask Transformer
- Title(参考訳): TubeFormer-DeepLab: ビデオマスクトランス
- Authors: Dahun Kim, Jun Xie, Huiyu Wang, Siyuan Qiao, Qihang Yu, Hong-Seok Kim,
Hartwig Adam, In So Kweon and Liang-Chieh Chen
- Abstract要約: 本研究では,複数のコアビデオセグメンテーションタスクを統一的に処理するための最初の試みであるTubeFormer-DeepLabを紹介する。
TubeFormer-DeepLabは、タスク固有のラベルでビデオチューブを直接予測する。
- 参考スコア(独自算出の注目度): 98.47947102154217
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present TubeFormer-DeepLab, the first attempt to tackle multiple core
video segmentation tasks in a unified manner. Different video segmentation
tasks (e.g., video semantic/instance/panoptic segmentation) are usually
considered as distinct problems. State-of-the-art models adopted in the
separate communities have diverged, and radically different approaches dominate
in each task. By contrast, we make a crucial observation that video
segmentation tasks could be generally formulated as the problem of assigning
different predicted labels to video tubes (where a tube is obtained by linking
segmentation masks along the time axis) and the labels may encode different
values depending on the target task. The observation motivates us to develop
TubeFormer-DeepLab, a simple and effective video mask transformer model that is
widely applicable to multiple video segmentation tasks. TubeFormer-DeepLab
directly predicts video tubes with task-specific labels (either pure semantic
categories, or both semantic categories and instance identities), which not
only significantly simplifies video segmentation models, but also advances
state-of-the-art results on multiple video segmentation benchmarks
- Abstract(参考訳): 我々は,複数のコアビデオセグメンテーションタスクを統一的に取り組もうとする最初の試みである tubeformer-deeplab を提案する。
異なるビデオセグメンテーションタスク(例えば、ビデオセグメンテーション/instance/panoptic segmentation)は通常、異なる問題とみなされる。
異なるコミュニティで採用されている最先端のモデルが多様化し、それぞれのタスクにおいて根本的に異なるアプローチが支配されている。
対照的に、ビデオセグメンテーションタスクは、ビデオチューブ(時間軸に沿ってセグメンテーションマスクをリンクすることでチューブが得られる)に異なる予測ラベルを割り当てる問題として、一般的に定式化することができ、ラベルは対象タスクに応じて異なる値をエンコードすることができる。
この観察は、複数のビデオセグメンテーションタスクに広く適用可能な、単純で効果的なビデオマスクトランスフォーマーモデルである tubeformer-deeplab の開発を動機付ける。
TubeFormer-DeepLabは、ビデオセグメンテーションモデルを著しく単純化するだけでなく、複数のビデオセグメンテーションベンチマークにおいて、タスク固有のラベル(純粋なセグメンテーションカテゴリ、またはセグメンテーションカテゴリとインスタンスアイデンティティの両方)によるビデオチューブを直接予測する。
関連論文リスト
- Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Merging Tasks for Video Panoptic Segmentation [0.0]
ビデオパノプティカルセグメンテーション(VPS)は、最近導入されたコンピュータビジョンタスクであり、ビデオ内のすべてのピクセルを分類し、追跡する必要がある。
ビデオパノプティクスのセグメンテーションを理解するために、まず最初に、セマンティクスとトラッキングを別途重視する構成課題について研究する。
カスタマイズされたデータセットのトレーニングを必要としない2つのデータ駆動アプローチが、それを解決するために選択される。
論文 参考訳(メタデータ) (2021-07-10T08:46:42Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。