論文の概要: Slot-VPS: Object-centric Representation Learning for Video Panoptic
Segmentation
- arxiv url: http://arxiv.org/abs/2112.08949v1
- Date: Thu, 16 Dec 2021 15:12:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 19:21:12.799458
- Title: Slot-VPS: Object-centric Representation Learning for Video Panoptic
Segmentation
- Title(参考訳): Slot-VPS:ビデオパノプティクスセグメンテーションのためのオブジェクト中心表現学習
- Authors: Yi Zhou, Hui Zhang, Hana Lee, Shuyang Sun, Pingjun Li, Yangguang Zhu,
ByungIn Yoo, Xiaojuan Qi, Jae-Joon Han
- Abstract要約: Video Panoptic (VPS) は、各ピクセルにクラスラベルを割り当てることを目的としている。
このタスクの最初のエンドツーエンドフレームワークであるSlot-VPSを紹介します。
- 参考スコア(独自算出の注目度): 29.454785969084384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Panoptic Segmentation (VPS) aims at assigning a class label to each
pixel, uniquely segmenting and identifying all object instances consistently
across all frames. Classic solutions usually decompose the VPS task into
several sub-tasks and utilize multiple surrogates (e.g. boxes and masks,
centres and offsets) to represent objects. However, this divide-and-conquer
strategy requires complex post-processing in both spatial and temporal domains
and is vulnerable to failures from surrogate tasks. In this paper, inspired by
object-centric learning which learns compact and robust object representations,
we present Slot-VPS, the first end-to-end framework for this task. We encode
all panoptic entities in a video, including both foreground instances and
background semantics, with a unified representation called panoptic slots. The
coherent spatio-temporal object's information is retrieved and encoded into the
panoptic slots by the proposed Video Panoptic Retriever, enabling it to
localize, segment, differentiate, and associate objects in a unified manner.
Finally, the output panoptic slots can be directly converted into the class,
mask, and object ID of panoptic objects in the video. We conduct extensive
ablation studies and demonstrate the effectiveness of our approach on two
benchmark datasets, Cityscapes-VPS (\textit{val} and test sets) and VIPER
(\textit{val} set), achieving new state-of-the-art performance of 63.7, 63.3
and 56.2 VPQ, respectively.
- Abstract(参考訳): Video Panoptic Segmentation (VPS) は、各ピクセルにクラスラベルを割り当てることを目的としており、すべてのフレームで一貫してすべてのオブジェクトインスタンスをセグメンテーションし識別する。
古典的なソリューションは通常、VPSタスクをいくつかのサブタスクに分解し、複数のサロゲート(箱、マスク、センター、オフセットなど)を使ってオブジェクトを表現する。
しかし、この分割・分散戦略は、空間領域と時間領域の両方で複雑な後処理を必要とし、サロゲートタスクの障害に対して脆弱である。
本稿では、コンパクトでロバストなオブジェクト表現を学習するオブジェクト中心学習に触発されて、このタスクの最初のエンドツーエンドフレームワークであるSlot-VPSを提案する。
私たちは、前景インスタンスと背景セマンティクスの両方を含む、ビデオ内のすべてのpanopticエンティティを、panoptic slotsと呼ばれる統一表現でエンコードします。
コヒーレント時空間オブジェクトの情報を検索し、提案したビデオパノプティカルレトリバーによってパノプティカルスロットにエンコードし、統一された方法でオブジェクトのローカライズ、セグメンテーション、差別化、関連付けを可能にする。
最後に、出力されたパノプティカルスロットは、ビデオ内のパノプティカルオブジェクトのクラス、マスク、オブジェクトIDに直接変換することができる。
そこで我々は,Cityscapes-VPS (\textit{val}) と VIPER (\textit{val} set) の2つのベンチマークデータセットにアプローチの有効性を検証し,63.7, 63.3, 56.2 VPQの新たな最先端性能を実現する。
関連論文リスト
- 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - OW-VISCap: Open-World Video Instance Segmentation and Captioning [95.6696714640357]
本研究では,映像中の映像や未確認の物体の分割,追跡,キャプションを共同で行う手法を提案する。
マスク付アテンション拡張LDM入力により,検出対象毎にリッチな記述文とオブジェクト中心のキャプションを生成する。
当社のアプローチは,3つのタスクにおいて最先端の作業と一致しているか,あるいは超えています。
論文 参考訳(メタデータ) (2024-04-04T17:59:58Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Towards Robust Video Object Segmentation with Adaptive Object
Calibration [18.094698623128146]
ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-02T17:51:29Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Merging Tasks for Video Panoptic Segmentation [0.0]
ビデオパノプティカルセグメンテーション(VPS)は、最近導入されたコンピュータビジョンタスクであり、ビデオ内のすべてのピクセルを分類し、追跡する必要がある。
ビデオパノプティクスのセグメンテーションを理解するために、まず最初に、セマンティクスとトラッキングを別途重視する構成課題について研究する。
カスタマイズされたデータセットのトレーニングを必要としない2つのデータ駆動アプローチが、それを解決するために選択される。
論文 参考訳(メタデータ) (2021-07-10T08:46:42Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。