論文の概要: Tracking Anything with Decoupled Video Segmentation
- arxiv url: http://arxiv.org/abs/2309.03903v1
- Date: Thu, 7 Sep 2023 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 11:49:48.781840
- Title: Tracking Anything with Decoupled Video Segmentation
- Title(参考訳): デカップリングビデオセグメンテーションによるトラッキング
- Authors: Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing,
Joon-Young Lee
- Abstract要約: 我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
- 参考スコア(独自算出の注目度): 87.07258378407289
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training data for video segmentation are expensive to annotate. This impedes
extensions of end-to-end algorithms to new video segmentation tasks, especially
in large-vocabulary settings. To 'track anything' without training on video
data for every individual task, we develop a decoupled video segmentation
approach (DEVA), composed of task-specific image-level segmentation and
class/task-agnostic bi-directional temporal propagation. Due to this design, we
only need an image-level model for the target task (which is cheaper to train)
and a universal temporal propagation model which is trained once and
generalizes across tasks. To effectively combine these two modules, we use
bi-directional propagation for (semi-)online fusion of segmentation hypotheses
from different frames to generate a coherent segmentation. We show that this
decoupled formulation compares favorably to end-to-end approaches in several
data-scarce tasks including large-vocabulary video panoptic segmentation,
open-world video segmentation, referring video segmentation, and unsupervised
video object segmentation. Code is available at:
https://hkchengrex.github.io/Tracking-Anything-with-DEVA
- Abstract(参考訳): ビデオセグメンテーションのトレーニングデータはアノテートに費用がかかる。
これは、特に大語彙設定において、新しいビデオセグメンテーションタスクへのエンドツーエンドアルゴリズムの拡張を妨げる。
個々のタスク毎にビデオデータをトレーニングすることなく「何でも追跡する」ために、タスク固有の画像レベルのセグメンテーションと、クラス/タスク非依存な双方向時間伝搬からなるデカップリングビデオセグメンテーションアプローチ(deva)を開発した。
この設計のため、ターゲットタスクのイメージレベルモデル(訓練コストが安い)と、タスクを一度訓練し、複数のタスクを一般化する普遍的時間伝搬モデルのみが必要である。
これら2つのモジュールを効果的に組み合わせるために、異なるフレームからのセグメンテーション仮説の(半)オンライン融合に双方向の伝搬を用いてコヒーレントセグメンテーションを生成する。
提案手法は,大語彙ビデオパオプティカルセグメンテーション,オープンワールドビデオセグメンテーション,参照ビデオセグメンテーション,教師なしビデオオブジェクトセグメンテーションなど,いくつかのデータ収集作業において,エンド・ツー・エンドのアプローチと好適に比較できることを示す。
コードは、https://hkchengrex.github.io/Tracking-Anything-with-DEVAで入手できる。
関連論文リスト
- ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - Merging Tasks for Video Panoptic Segmentation [0.0]
ビデオパノプティカルセグメンテーション(VPS)は、最近導入されたコンピュータビジョンタスクであり、ビデオ内のすべてのピクセルを分類し、追跡する必要がある。
ビデオパノプティクスのセグメンテーションを理解するために、まず最初に、セマンティクスとトラッキングを別途重視する構成課題について研究する。
カスタマイズされたデータセットのトレーニングを必要としない2つのデータ駆動アプローチが、それを解決するために選択される。
論文 参考訳(メタデータ) (2021-07-10T08:46:42Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos [17.232631075144592]
例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。
単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。
提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T18:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。