Fugu-MT 論文翻訳(概要): PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation

論文の概要: PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation

arxiv url: http://arxiv.org/abs/2309.12303v5
Date: Sun, 28 Jul 2024 09:04:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 00:46:55.603845
Title: PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation
Title（参考訳）: PanoVOS:ビデオセグメンテーションのためのトランスフォーマによる非パノラマおよびパノラマビューのブリッジ
Authors: Shilin Yan, Xiaohao Xu, Renrui Zhang, Lingyi Hong, Wenchao Chen, Wenqiang Zhang, Wei Zhang,
Abstract要約: パノラマビデオデータセットPanoVOSを提案する。データセットは150本のビデオに高解像度と多様なモーションを提供する。パノラマ空間整合変換器(PSCFormer)は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に利用することができる。
参考スコア（独自算出の注目度）: 39.269864548255576
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Panoramic videos contain richer spatial information and have attracted tremendous amounts of attention due to their exceptional experience in some fields such as autonomous driving and virtual reality. However, existing datasets for video segmentation only focus on conventional planar images. To address the challenge, in this paper, we present a panoramic video dataset, PanoVOS. The dataset provides 150 videos with high video resolutions and diverse motions. To quantify the domain gap between 2D planar videos and panoramic videos, we evaluate 15 off-the-shelf video object segmentation (VOS) models on PanoVOS. Through error analysis, we found that all of them fail to tackle pixel-level content discontinues of panoramic videos. Thus, we present a Panoramic Space Consistency Transformer (PSCFormer), which can effectively utilize the semantic boundary information of the previous frame for pixel-level matching with the current frame. Extensive experiments demonstrate that compared with the previous SOTA models, our PSCFormer network exhibits a great advantage in terms of segmentation results under the panoramic setting. Our dataset poses new challenges in panoramic VOS and we hope that our PanoVOS can advance the development of panoramic segmentation/tracking.
Abstract（参考訳）: パノラマビデオには、より豊かな空間情報が含まれており、自律運転やバーチャルリアリティといったいくつかの分野での例外的な経験から、非常に多くの注目を集めている。しかし、既存のビデオセグメンテーション用データセットは、従来の平面画像のみに焦点を当てている。本論文では,パノラマビデオデータセットであるパノVOSを提案する。データセットは150本のビデオに高解像度と多様なモーションを提供する。 2次元平面ビデオとパノラマビデオの領域ギャップを定量化するために,パノVOSを用いた15のオフ・ザ・シェルフビデオオブジェクトセグメンテーション(VOS)モデルを評価した。エラー解析により、パノラマビデオの画素レベルのコンテンツ不連続に対処できないことが判明した。そこで我々は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に活用できるパノラマ空間整合変換器(PSCFormer)を提案する。我々のPSCFormerネットワークは,従来のSOTAモデルと比較して,パノラマ条件下でのセグメンテーション結果において大きな優位性を示す。我々のデータセットはパノラマVOSに新たな課題をもたらしており、パノラマVOSがパノラマセグメンテーション/トラッキングの開発を前進させることを期待しています。

関連論文リスト

ViewPoint: Panoramic Video Generation with Pretrained Diffusion Models [52.87334248847314]
本研究では,パノラマ映像の生成に事前学習した視点映像モデルを用いた新しいフレームワークを提案する。具体的には,世界空間の連続性と細かな視覚的詳細を同時に持つビューポイントマップという新しいパノラマ表現を設計する。提案手法は,パノラマ映像を高度にダイナミックかつ空間的に一貫したパノラマ映像を合成し,最先端の性能を達成し,従来の手法を超越することができる。
論文参考訳（メタデータ） (2025-06-30T04:33:34Z)
PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms [41.92179513409301]
既存のパノラマビデオ生成モデルは、高品質なパノラマビデオのための従来のテキスト・ツー・ビデオ・モデルから事前訓練された生成先を活用するのに苦労している。本稿では,パノラマ領域に最小限のモジュールを備えた事前学習されたテキスト・ビデオ・モデルを効果的に持ち上げるパノラマモデルを提案する。これらの揚力表現を学習するためのパノラマビデオを提供するため、キャプションと多様なシナリオを備えた高品質なパノラマビデオデータセットであるPanoVidをコントリビュートする。
論文参考訳（メタデータ） (2025-05-28T06:24:21Z)
VideoPanda: Video Panoramic Diffusion with Multi-view Attention [57.87428280844657]
高解像度パノラマビデオコンテンツはバーチャルリアリティーの没入体験にとって最重要であるが、特殊な機器や複雑なカメラのセットアップを必要とするため、収集は容易ではない。 VideoPandaは、既存の方法と比較して、すべての入力条件に対してよりリアルでコヒーレントな360$のパノラマを生成する。
論文参考訳（メタデータ） (2025-04-15T16:58:15Z)
DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。 DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文参考訳（メタデータ） (2024-10-31T17:57:02Z)
VidPanos: Generative Panoramic Videos from Casual Panning Videos [73.77443496436749]
パノラマ画像ステッチは、カメラの視野を越えて広がるシーンの統一された広角ビューを提供する。本稿では,カジュアルにキャプチャされたパンニングビデオからパノラマ動画を合成する方法を提案する。我々のシステムは、人、車、流れる水など、さまざまな場所のシーンにビデオパノラマを作成できる。
論文参考訳（メタデータ） (2024-10-17T17:53:24Z)
PanoViT: Vision Transformer for Room Layout Estimation from a Single Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。 CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。本手法は,室内配置予測精度において最先端の手法より優れる。
論文参考訳（メタデータ） (2022-12-23T05:37:11Z)
Waymo Open Dataset: Panoramic Video Panoptic Segmentation [48.04664130918314]
画像セグメンテーションの研究は、ロボット工学や自動運転における重要な応用により、ますます人気が高まっている。画像の濃密なラベル付けのコストが高いため、一般に公開されている真実のラベルが不足している。本稿では,自律運転のための高品質なパン光学セグメンテーションラベルを提供する大規模データセットを提案する。
論文参考訳（メタデータ） (2022-06-15T17:57:28Z)
Panoramic Panoptic Segmentation: Towards Complete Surrounding Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。完全な周囲の理解は、エージェントに最大限の情報を提供する。標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-01T09:37:27Z)
Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文参考訳（メタデータ） (2020-06-19T19:35:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。