論文の概要: PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation
- arxiv url: http://arxiv.org/abs/2309.12303v4
- Date: Wed, 17 Jul 2024 02:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 23:28:28.619345
- Title: PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation
- Title(参考訳): PanoVOS:ビデオセグメンテーションのためのトランスフォーマによる非パノラマおよびパノラマビューのブリッジ
- Authors: Shilin Yan, Xiaohao Xu, Renrui Zhang, Lingyi Hong, Wenchao Chen, Wenqiang Zhang, Wei Zhang,
- Abstract要約: パノラマビデオデータセットPanoVOSを提案する。
データセットは150本のビデオに高解像度と多様なモーションを提供する。
パノラマ空間整合変換器(PSCFormer)は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に利用することができる。
- 参考スコア(独自算出の注目度): 39.269864548255576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic videos contain richer spatial information and have attracted tremendous amounts of attention due to their exceptional experience in some fields such as autonomous driving and virtual reality. However, existing datasets for video segmentation only focus on conventional planar images. To address the challenge, in this paper, we present a panoramic video dataset, PanoVOS. The dataset provides 150 videos with high video resolutions and diverse motions. To quantify the domain gap between 2D planar videos and panoramic videos, we evaluate 15 off-the-shelf video object segmentation (VOS) models on PanoVOS. Through error analysis, we found that all of them fail to tackle pixel-level content discontinues of panoramic videos. Thus, we present a Panoramic Space Consistency Transformer (PSCFormer), which can effectively utilize the semantic boundary information of the previous frame for pixel-level matching with the current frame. Extensive experiments demonstrate that compared with the previous SOTA models, our PSCFormer network exhibits a great advantage in terms of segmentation results under the panoramic setting. Our dataset poses new challenges in panoramic VOS and we hope that our PanoVOS can advance the development of panoramic segmentation/tracking.
- Abstract(参考訳): パノラマビデオには、より豊かな空間情報が含まれており、自律運転やバーチャルリアリティといったいくつかの分野での例外的な経験から、非常に多くの注目を集めている。
しかし、既存のビデオセグメンテーション用データセットは、従来の平面画像のみに焦点を当てている。
本論文では,パノラマビデオデータセットであるパノVOSを提案する。
データセットは150本のビデオに高解像度と多様なモーションを提供する。
2次元平面ビデオとパノラマビデオの領域ギャップを定量化するために,パノVOSを用いた15のオフ・ザ・シェルフビデオオブジェクトセグメンテーション(VOS)モデルを評価した。
エラー解析により、パノラマビデオの画素レベルのコンテンツ不連続に対処できないことが判明した。
そこで我々は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に活用できるパノラマ空間整合変換器(PSCFormer)を提案する。
我々のPSCFormerネットワークは,従来のSOTAモデルと比較して,パノラマ条件下でのセグメンテーション結果において大きな優位性を示す。
我々のデータセットはパノラマVOSに新たな課題をもたらしており、パノラマVOSがパノラマセグメンテーション/トラッキングの開発を前進させることを期待しています。
関連論文リスト
- Panoptic Video Scene Graph Generation [110.82362282102288]
パン光学シーングラフ生成(PVSG)と呼ばれる新しい問題を提案し,研究する。
PVSGは、ビデオ内のバウンディングボックスで接地された人間とオブジェクト間の時間的相互作用に焦点を当てた、既存のビデオシーングラフ生成問題に関連している。
PVSGデータセットは400本(3人称289本+111本自撮り111本)からなり、合計150Kフレームに汎視的セグメンテーションマスクと微妙な時間的シーングラフをラベル付けした。
論文 参考訳(メタデータ) (2023-11-28T18:59:57Z) - PanoSwin: a Pano-style Swin Transformer for Panorama Understanding [15.115868803355081]
等方射影(ERP)は境界の不連続性と空間歪みを含む。
我々はパノラマ表現をERPで学習するためにPanoSwinを提案する。
各種パノラマ作業における最先端技術に対する実験を行う。
論文 参考訳(メタデータ) (2023-08-28T17:30:14Z) - PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。
CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。
本手法は,室内配置予測精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2022-12-23T05:37:11Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - Waymo Open Dataset: Panoramic Video Panoptic Segmentation [48.04664130918314]
画像セグメンテーションの研究は、ロボット工学や自動運転における重要な応用により、ますます人気が高まっている。
画像の濃密なラベル付けのコストが高いため、一般に公開されている真実のラベルが不足している。
本稿では,自律運転のための高品質なパン光学セグメンテーションラベルを提供する大規模データセットを提案する。
論文 参考訳(メタデータ) (2022-06-15T17:57:28Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。