論文の概要: Video Object Segmentation in Panoptic Wild Scenes
- arxiv url: http://arxiv.org/abs/2305.04470v1
- Date: Mon, 8 May 2023 05:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 15:35:40.343976
- Title: Video Object Segmentation in Panoptic Wild Scenes
- Title(参考訳): パノプティカル・ワイルドシーンにおける映像オブジェクトのセグメンテーション
- Authors: Yuanyou Xu, Zongxin Yang, Yi Yang
- Abstract要約: 本稿では,映像オブジェクトの半教師付きセグメンテーション(VOS)をパノスコープのワイルドシーンに導入する。
本稿では,大規模ベンチマークとベースライン手法を提案する。
実験の結果, VIPOSeg は VOS モデルの性能を向上させるだけでなく, 総合的に評価できることがわかった。
- 参考スコア(独自算出の注目度): 31.701108453289162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce semi-supervised video object segmentation (VOS)
to panoptic wild scenes and present a large-scale benchmark as well as a
baseline method for it. Previous benchmarks for VOS with sparse annotations are
not sufficient to train or evaluate a model that needs to process all possible
objects in real-world scenarios. Our new benchmark (VIPOSeg) contains
exhaustive object annotations and covers various real-world object categories
which are carefully divided into subsets of thing/stuff and seen/unseen classes
for comprehensive evaluation. Considering the challenges in panoptic VOS, we
propose a strong baseline method named panoptic object association with
transformers (PAOT), which uses panoptic identification to associate objects
with a pyramid architecture on multiple scales. Experimental results show that
VIPOSeg can not only boost the performance of VOS models by panoptic training
but also evaluate them comprehensively in panoptic scenes. Previous methods for
classic VOS still need to improve in performance and efficiency when dealing
with panoptic scenes, while our PAOT achieves SOTA performance with good
efficiency on VIPOSeg and previous VOS benchmarks. PAOT also ranks 1st in the
VOT2022 challenge. Our dataset is available at
https://github.com/yoxu515/VIPOSeg-Benchmark.
- Abstract(参考訳): 本稿では,半教師付き映像オブジェクトセグメンテーション(vos)をパンオプティカル・ワイルドシーンに導入し,大規模ベンチマークとベースライン手法を提案する。
疎いアノテーションを持つVOSの以前のベンチマークでは、現実のシナリオで可能なすべてのオブジェクトを処理する必要があるモデルをトレーニングしたり評価したりするのに十分ではありません。
我々の新しいベンチマーク(VIPOSeg)は、徹底的なオブジェクトアノテーションを含み、様々な現実世界のオブジェクトカテゴリを網羅的に評価するために、物/物/物のサブセットと見えないクラスのサブセットに慎重に分割する。
本研究では,複数スケールのピラミッドアーキテクチャとオブジェクトを関連付けるために,panoptic identificationを用いたpanoptic object association with transformers(paot)という強力なベースライン手法を提案する。
実験の結果, VIPOSeg は VOS モデルの性能を高めるだけでなく, 総合的に評価できることがわかった。
我々のPAOTはVIPOSegおよび以前のVOSベンチマークで高い効率でSOTA性能を達成する一方、従来のVOSの手法では、パン光学シーンを扱う際にパフォーマンスと効率を改善する必要がある。
PAOTはVOT2022チャレンジでも1位となった。
私たちのデータセットはhttps://github.com/yoxu515/viposeg-benchmarkで利用可能です。
関連論文リスト
- Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文 参考訳(メタデータ) (2023-09-05T08:34:23Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Slot-VPS: Object-centric Representation Learning for Video Panoptic
Segmentation [29.454785969084384]
Video Panoptic (VPS) は、各ピクセルにクラスラベルを割り当てることを目的としている。
このタスクの最初のエンドツーエンドフレームワークであるSlot-VPSを紹介します。
論文 参考訳(メタデータ) (2021-12-16T15:12:22Z) - ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic
Segmentation [31.078913193966585]
ViP-DeepLabは、ビジョンの長期的かつ挑戦的な逆投影問題に取り組む統一モデルです。
ViP-DeepLabは、単眼深度推定とビデオパノプティクスのセグメンテーションを共同で行うことでアプローチする。
個々のサブタスクでは、ViP-DeepLabは最先端の結果を達成し、Cityscapes-VPSで5.1%のVPQ、KITTI単眼深度推定ベンチマークで1位、KITTI MOTS歩行者で1位を上回ります。
論文 参考訳(メタデータ) (2020-12-09T19:00:35Z) - Make One-Shot Video Object Segmentation Efficient Again [7.7415390727490445]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオの各フレームにオブジェクトの集合をセグメンテーションするタスクを記述する。
e-OSVOSはオブジェクト検出タスクを分離し、Mask R-CNNの修正版を適用してローカルセグメンテーションマスクのみを予測する。
e-OSVOSは、DAVIS 2016、DAVIS 2017、YouTube-VOSの1ショットの微調整方法に関する最先端の結果を提供する。
論文 参考訳(メタデータ) (2020-12-03T12:21:23Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。