論文の概要: PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic
Segmentation
- arxiv url: http://arxiv.org/abs/2112.02582v1
- Date: Sun, 5 Dec 2021 14:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:33:35.340860
- Title: PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic
Segmentation
- Title(参考訳): PolyphonicFormer:depth-aware Video Panoptic Segmentationのための統一クエリ学習
- Authors: Haobo Yuan, Xiangtai Li, Yibo Yang, Guangliang Cheng, Jing Zhang,
Yunhai Tong, Lefei Zhang, Dacheng Tao
- Abstract要約: DVPSタスクで全てのサブタスクを統一する視覚変換器であるPolyphonicFormerを提案する。
提案手法は,問合せ学習による深度推定とパノプティックセグメンテーションの関係について検討する。
ICCV-2021 BMTT Challenge video + depth trackで1位にランクインした。
- 参考スコア(独自算出の注目度): 90.26723865198348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed Depth-aware Video Panoptic Segmentation (DVPS) aims to
predict panoptic segmentation results and depth maps in a video, which is a
challenging scene understanding problem. In this paper, we present
PolyphonicFormer, a vision transformer to unify all the sub-tasks under the
DVPS task. Our method explores the relationship between depth estimation and
panoptic segmentation via query-based learning. In particular, we design three
different queries including thing query, stuff query, and depth query. Then we
propose to learn the correlations among these queries via gated fusion. From
the experiments, we prove the benefits of our design from both depth estimation
and panoptic segmentation aspects. Since each thing query also encodes the
instance-wise information, it is natural to perform tracking via cropping
instance mask features with appearance learning. Our method ranks 1st on the
ICCV-2021 BMTT Challenge video + depth track. Ablation studies are reported to
show how we improve the performance. Code will be available at
https://github.com/HarborYuan/PolyphonicFormer.
- Abstract(参考訳): 最近提案されたDVPS(Depth-aware Video Panoptic Segmentation)は、映像中のパノプティクスのセグメンテーション結果と深度マップを予測することを目的としている。
本稿では,DVPSタスク下でのすべてのサブタスクを統一する視覚変換器であるPolyphonicFormerを提案する。
提案手法は,問合せ学習による深度推定とパノプティックセグメンテーションの関係について検討する。
特に、モノクエリ、モノクエリ、ディープクエリを含む3つの異なるクエリを設計する。
次に,これらの問合せ間の相関をゲート融合によって学習する。
実験により, 深度推定と汎視的セグメンテーションの両面から, 設計の利点を実証した。
各クエリはインスタンス毎の情報もエンコードするので、ルックスラーニングによるインスタンスマスクのトリッピングによるトラッキングが自然である。
ICCV-2021 BMTT Challenge video + depth trackで1位となった。
アブレーションの研究は、パフォーマンスを改善する方法を示している。
コードはhttps://github.com/harboryuan/polyphonicformerで入手できる。
関連論文リスト
- Towards Deeply Unified Depth-aware Panoptic Segmentation with
Bi-directional Guidance Learning [63.63516124646916]
深度認識型パノプティックセグメンテーションのためのフレームワークを提案する。
本稿では,クロスタスク機能学習を容易にする双方向指導学習手法を提案する。
本手法は,Cityscapes-DVPS と SemKITTI-DVPS の両データセットを用いた深度認識型パノプティックセグメンテーションのための新しい手法である。
論文 参考訳(メタデータ) (2023-07-27T11:28:33Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - PanDepth: Joint Panoptic Segmentation and Depth Completion [19.642115764441016]
本稿では,RGB画像とスパース深度マップを用いたマルチタスクモデルを提案する。
本モデルでは,完全な深度マップの予測に成功し,各入力フレームに対してセマンティックセグメンテーション,インスタンスセグメンテーション,パノプティックセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-12-29T05:37:38Z) - MonoDVPS: A Self-Supervised Monocular Depth Estimation Approach to
Depth-aware Video Panoptic Segmentation [3.2489082010225494]
単眼深度推定とビデオパノプティックセグメンテーションを行うマルチタスクネットワークを用いた新しいソリューションを提案する。
トレーニング信号の劣化を回避するため,物体を移動させるための新しいパノプティカルマスキング方式と,パノプティカル誘導による奥行き損失を導入した。
論文 参考訳(メタデータ) (2022-10-14T07:00:42Z) - JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes [75.20435924081585]
JPerceiverは、モノクロビデオシーケンスからスケール認識深度とVOとBEVレイアウトを同時に推定することができる。
クロスビュー幾何変換(CGT)を利用して、絶対スケールを道路レイアウトから奥行きとVOに伝播させる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクの全てにおいて、既存のメソッドよりもJPerceiverの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-07-16T10:33:59Z) - PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation [41.85216306978024]
深度認識型パノプティックセグメンテーション(DPS)のための統合フレームワークを提案する。
インスタンス固有のカーネルを生成し、各インスタンスの深さとセグメンテーションマスクを予測する。
我々は,新たな深度損失による深度学習の監視を支援するために,インスタンスレベルの深度手がかりを追加する。
論文 参考訳(メタデータ) (2022-06-01T13:00:49Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic
Segmentation [31.078913193966585]
ViP-DeepLabは、ビジョンの長期的かつ挑戦的な逆投影問題に取り組む統一モデルです。
ViP-DeepLabは、単眼深度推定とビデオパノプティクスのセグメンテーションを共同で行うことでアプローチする。
個々のサブタスクでは、ViP-DeepLabは最先端の結果を達成し、Cityscapes-VPSで5.1%のVPQ、KITTI単眼深度推定ベンチマークで1位、KITTI MOTS歩行者で1位を上回ります。
論文 参考訳(メタデータ) (2020-12-09T19:00:35Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。