論文の概要: SDI-Paste: Synthetic Dynamic Instance Copy-Paste for Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2410.13565v1
- Date: Wed, 16 Oct 2024 12:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:36.170186
- Title: SDI-Paste: Synthetic Dynamic Instance Copy-Paste for Video Instance Segmentation
- Title(参考訳): SDI-Paste: ビデオインスタンスセグメンテーションのための合成動的インスタンスコピーペースト
- Authors: Sahir Shrestha, Weihao Li, Gao Zhu, Nick Barnes,
- Abstract要約: 生成モデルの最近のビデオ忠実度向上を利用して、既存のビデオデータセットに合成されたオブジェクトを組み込んで、オブジェクトのインスタンスプールを人工的に拡張する効果的な方法を模索する。
ビデオデータ拡張パイプラインをSynthetic Dynamic Instance Copy-Pasteと名付け、ビデオシーケンス全体にわたるビデオインスタンスの検出、セグメンテーション、トラッキングという複雑なタスクでそれをテストします。
- 参考スコア(独自算出の注目度): 26.258313321256097
- License:
- Abstract: Data augmentation methods such as Copy-Paste have been studied as effective ways to expand training datasets while incurring minimal costs. While such methods have been extensively implemented for image level tasks, we found no scalable implementation of Copy-Paste built specifically for video tasks. In this paper, we leverage the recent growth in video fidelity of generative models to explore effective ways of incorporating synthetically generated objects into existing video datasets to artificially expand object instance pools. We first procure synthetic video sequences featuring objects that morph dynamically with time. Our carefully devised pipeline automatically segments then copy-pastes these dynamic instances across the frames of any target background video sequence. We name our video data augmentation pipeline Synthetic Dynamic Instance Copy-Paste, and test it on the complex task of Video Instance Segmentation which combines detection, segmentation and tracking of object instances across a video sequence. Extensive experiments on the popular Youtube-VIS 2021 dataset using two separate popular networks as baselines achieve strong gains of +2.9 AP (6.5%) and +2.1 AP (4.9%). We make our code and models publicly available.
- Abstract(参考訳): Copy-Pasteのようなデータ拡張手法は、最小コストでトレーニングデータセットを拡張する効果的な方法として研究されている。
このような手法は画像レベルのタスクに広く実装されているが、ビデオタスクに特化したCopy-Pasteのスケーラブルな実装は見つからなかった。
本稿では、生成モデルの最近のビデオ忠実度向上を活用し、既存のビデオデータセットに合成されたオブジェクトを組み込んで、オブジェクトのインスタンスプールを人工的に拡張する効果的な方法を探る。
まず、時間とともに動的に変化する物体を特徴付ける合成ビデオシーケンスを得る。
慎重に設計されたパイプラインは自動的にセグメントを分割し、対象とするバックグラウンドビデオシーケンスのフレームにこれらの動的インスタンスをコピー・ペーストします。
我々は、ビデオデータ拡張パイプラインをSynthetic Dynamic Instance Copy-Pasteと名付け、ビデオシーケンスにわたるオブジェクトインスタンスの検出、セグメンテーション、トラッキングを組み合わせた、ビデオインスタンスセグメンテーションの複雑なタスクでそれをテストします。
一般的なYoutube-VIS 2021データセットに対する大規模な実験では、2つの人気ネットワークをベースラインとして使用し、+2.9 AP (6.5%) と +2.1 AP (4.9%) の強力なゲインを達成した。
コードとモデルを公開しています。
関連論文リスト
- X-Paste: Revisiting Scalable Copy-Paste for Instance Segmentation using
CLIP and StableDiffusion [137.84635386962395]
Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。
新たに登場したゼロショット認識モデルのパワーで、Copy-Pasteを大規模に再考する。
X-Pasteは、Swin-Lをバックボーンとして、強力なベースラインであるCenterNet2よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-07T18:59:59Z) - Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。
十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文 参考訳(メタデータ) (2022-11-16T18:50:14Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。