論文の概要: TarViS: A Unified Approach for Target-based Video Segmentation
- arxiv url: http://arxiv.org/abs/2301.02657v2
- Date: Wed, 10 May 2023 16:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 17:10:45.460546
- Title: TarViS: A Unified Approach for Target-based Video Segmentation
- Title(参考訳): tarvis: ターゲットベースのビデオセグメンテーションのための統一アプローチ
- Authors: Ali Athar, Alexander Hermans, Jonathon Luiten, Deva Ramanan, Bastian
Leibe
- Abstract要約: TarViSは、ビデオで任意に定義された「ターゲット」の集合をセグメント化する必要があるあらゆるタスクに適用できる、新しく統合されたネットワークアーキテクチャである。
我々のアプローチは、タスクがこれらのターゲットをどのように定義するかに関して柔軟であり、後者を抽象的な「クエリ」としてモデル化し、ピクセル精度の高いターゲットマスクを予測するのに使用される。
その有効性を示すために、TarViSをビデオインスタンス(VIS)、ビデオパノプティクス(VPS)、ビデオオブジェクト(VOS)、ポイントインテンプラ誘導トラッキング(PET)の4つのタスクに適用する。
- 参考スコア(独自算出の注目度): 115.5770357189209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The general domain of video segmentation is currently fragmented into
different tasks spanning multiple benchmarks. Despite rapid progress in the
state-of-the-art, current methods are overwhelmingly task-specific and cannot
conceptually generalize to other tasks. Inspired by recent approaches with
multi-task capability, we propose TarViS: a novel, unified network architecture
that can be applied to any task that requires segmenting a set of arbitrarily
defined 'targets' in video. Our approach is flexible with respect to how tasks
define these targets, since it models the latter as abstract 'queries' which
are then used to predict pixel-precise target masks. A single TarViS model can
be trained jointly on a collection of datasets spanning different tasks, and
can hot-swap between tasks during inference without any task-specific
retraining. To demonstrate its effectiveness, we apply TarViS to four different
tasks, namely Video Instance Segmentation (VIS), Video Panoptic Segmentation
(VPS), Video Object Segmentation (VOS) and Point Exemplar-guided Tracking
(PET). Our unified, jointly trained model achieves state-of-the-art performance
on 5/7 benchmarks spanning these four tasks, and competitive performance on the
remaining two. Code and model weights are available at:
https://github.com/Ali2500/TarViS
- Abstract(参考訳): ビデオセグメンテーションの一般的なドメインは、現在複数のベンチマークにまたがる異なるタスクに断片化されている。
最先端技術の急速な進歩にもかかわらず、現在の手法は圧倒的にタスク固有であり、概念的には他のタスクに一般化できない。
マルチタスク機能を備えた最近のアプローチにインスパイアされたTarViSは、ビデオ内の任意に定義された「ターゲット」の集合をセグメント化する必要のあるタスクに適用可能な、新しく統一されたネットワークアーキテクチャである。
我々のアプローチは、タスクがこれらのターゲットをどのように定義するかに関して柔軟であり、後者を抽象的な「クエリ」としてモデル化し、ピクセル精度の高いターゲットマスクを予測するのに使用される。
単一のTarViSモデルは、異なるタスクにまたがるデータセットのコレクションを共同でトレーニングすることができ、タスク固有のリトレーニングなしで、推論中にタスク間のホットスワップを行うことができる。
有効性を示すために,ビデオインスタンスセグメンテーション(VIS),ビデオパノプティクスセグメンテーション(VPS),ビデオオブジェクトセグメンテーション(VOS),ポイントインテンプラ誘導トラッキング(PET)の4つのタスクにTarViSを適用した。
これら4つのタスクにまたがる5/7ベンチマークの最先端性能と,残りの2つのタスクの競合性能を実現する。
コードとモデルの重み付けはhttps://github.com/ali2500/tarvis
関連論文リスト
- Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks [26.007846170517055]
本研究では、時間的ビデオ理解タスクの出力を離散トークンのシーケンスとして定式化するために、Temporal2Seqと呼ばれる単一の統合フレームワークを提案する。
この統一されたトークン表現により、Temporal2Seqは、異なるビデオ理解タスクで単一のアーキテクチャ内でジェネラリストモデルをトレーニングすることができる。
我々はTemporal2Seqジェネリストモデルを3つのタスクの対応するテストセット上で評価し、Temporal2Seqが様々なタスクに対して合理的な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-27T06:37:47Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Merging Tasks for Video Panoptic Segmentation [0.0]
ビデオパノプティカルセグメンテーション(VPS)は、最近導入されたコンピュータビジョンタスクであり、ビデオ内のすべてのピクセルを分類し、追跡する必要がある。
ビデオパノプティクスのセグメンテーションを理解するために、まず最初に、セマンティクスとトラッキングを別途重視する構成課題について研究する。
カスタマイズされたデータセットのトレーニングを必要としない2つのデータ駆動アプローチが、それを解決するために選択される。
論文 参考訳(メタデータ) (2021-07-10T08:46:42Z) - Conditional Channel Gated Networks for Task-Aware Continual Learning [44.894710899300435]
畳み込みニューラルネットワークは、一連の学習問題に最適化された場合、破滅的な忘れを経験する。
本稿では,この問題に条件付き計算で対処する新しい枠組みを提案する。
提案手法を4つの連続学習データセットで検証する。
論文 参考訳(メタデータ) (2020-03-31T19:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。