論文の概要: PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation
- arxiv url: http://arxiv.org/abs/2309.12303v5
- Date: Sun, 28 Jul 2024 09:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 00:46:55.603845
- Title: PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation
- Title(参考訳): PanoVOS:ビデオセグメンテーションのためのトランスフォーマによる非パノラマおよびパノラマビューのブリッジ
- Authors: Shilin Yan, Xiaohao Xu, Renrui Zhang, Lingyi Hong, Wenchao Chen, Wenqiang Zhang, Wei Zhang,
- Abstract要約: パノラマビデオデータセットPanoVOSを提案する。
データセットは150本のビデオに高解像度と多様なモーションを提供する。
パノラマ空間整合変換器(PSCFormer)は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に利用することができる。
- 参考スコア(独自算出の注目度): 39.269864548255576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic videos contain richer spatial information and have attracted tremendous amounts of attention due to their exceptional experience in some fields such as autonomous driving and virtual reality. However, existing datasets for video segmentation only focus on conventional planar images. To address the challenge, in this paper, we present a panoramic video dataset, PanoVOS. The dataset provides 150 videos with high video resolutions and diverse motions. To quantify the domain gap between 2D planar videos and panoramic videos, we evaluate 15 off-the-shelf video object segmentation (VOS) models on PanoVOS. Through error analysis, we found that all of them fail to tackle pixel-level content discontinues of panoramic videos. Thus, we present a Panoramic Space Consistency Transformer (PSCFormer), which can effectively utilize the semantic boundary information of the previous frame for pixel-level matching with the current frame. Extensive experiments demonstrate that compared with the previous SOTA models, our PSCFormer network exhibits a great advantage in terms of segmentation results under the panoramic setting. Our dataset poses new challenges in panoramic VOS and we hope that our PanoVOS can advance the development of panoramic segmentation/tracking.
- Abstract(参考訳): パノラマビデオには、より豊かな空間情報が含まれており、自律運転やバーチャルリアリティといったいくつかの分野での例外的な経験から、非常に多くの注目を集めている。
しかし、既存のビデオセグメンテーション用データセットは、従来の平面画像のみに焦点を当てている。
本論文では,パノラマビデオデータセットであるパノVOSを提案する。
データセットは150本のビデオに高解像度と多様なモーションを提供する。
2次元平面ビデオとパノラマビデオの領域ギャップを定量化するために,パノVOSを用いた15のオフ・ザ・シェルフビデオオブジェクトセグメンテーション(VOS)モデルを評価した。
エラー解析により、パノラマビデオの画素レベルのコンテンツ不連続に対処できないことが判明した。
そこで我々は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に活用できるパノラマ空間整合変換器(PSCFormer)を提案する。
我々のPSCFormerネットワークは,従来のSOTAモデルと比較して,パノラマ条件下でのセグメンテーション結果において大きな優位性を示す。
我々のデータセットはパノラマVOSに新たな課題をもたらしており、パノラマVOSがパノラマセグメンテーション/トラッキングの開発を前進させることを期待しています。
関連論文リスト
- DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - VidPanos: Generative Panoramic Videos from Casual Panning Videos [73.77443496436749]
パノラマ画像ステッチは、カメラの視野を越えて広がるシーンの統一された広角ビューを提供する。
本稿では,カジュアルにキャプチャされたパンニングビデオからパノラマ動画を合成する方法を提案する。
我々のシステムは、人、車、流れる水など、さまざまな場所のシーンにビデオパノラマを作成できる。
論文 参考訳(メタデータ) (2024-10-17T17:53:24Z) - PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。
CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。
本手法は,室内配置予測精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2022-12-23T05:37:11Z) - Waymo Open Dataset: Panoramic Video Panoptic Segmentation [48.04664130918314]
画像セグメンテーションの研究は、ロボット工学や自動運転における重要な応用により、ますます人気が高まっている。
画像の濃密なラベル付けのコストが高いため、一般に公開されている真実のラベルが不足している。
本稿では,自律運転のための高品質なパン光学セグメンテーションラベルを提供する大規模データセットを提案する。
論文 参考訳(メタデータ) (2022-06-15T17:57:28Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。