論文の概要: Hallucinating 360°: Panoramic Street-View Generation via Local Scenes Diffusion and Probabilistic Prompting
- arxiv url: http://arxiv.org/abs/2507.06971v2
- Date: Thu, 10 Jul 2025 01:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 12:24:00.103233
- Title: Hallucinating 360°: Panoramic Street-View Generation via Local Scenes Diffusion and Probabilistic Prompting
- Title(参考訳): 360°の幻覚:局所的なシーン拡散と確率的プロンプティングによるパノラマストリートビュー生成
- Authors: Fei Teng, Kai Luo, Sheng Wu, Siyu Li, Pujun Guo, Jiale Wei, Kunyu Peng, Jiaming Zhang, Kailun Yang,
- Abstract要約: 自動運転のための最初のパノラマ生成法Percep360を提案する。
Percep360は、縫合されたパノラマデータに基づく制御信号によるパノラマデータのコヒーレントな生成を可能にする。
生成した画像の有効性を3つの視点から評価した。
- 参考スコア(独自算出の注目度): 20.14129939772052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic perception holds significant potential for autonomous driving, enabling vehicles to acquire a comprehensive 360{\deg} surround view in a single shot. However, autonomous driving is a data-driven task. Complete panoramic data acquisition requires complex sampling systems and annotation pipelines, which are time-consuming and labor-intensive. Although existing street view generation models have demonstrated strong data regeneration capabilities, they can only learn from the fixed data distribution of existing datasets and cannot achieve high-quality, controllable panoramic generation. In this paper, we propose the first panoramic generation method Percep360 for autonomous driving. Percep360 enables coherent generation of panoramic data with control signals based on the stitched panoramic data. Percep360 focuses on two key aspects: coherence and controllability. Specifically, to overcome the inherent information loss caused by the pinhole sampling process, we propose the Local Scenes Diffusion Method (LSDM). LSDM reformulates the panorama generation as a spatially continuous diffusion process, bridging the gaps between different data distributions. Additionally, to achieve the controllable generation of panoramic images, we propose a Probabilistic Prompting Method (PPM). PPM dynamically selects the most relevant control cues, enabling controllable panoramic image generation. We evaluate the effectiveness of the generated images from three perspectives: image quality assessment (i.e., no-reference and with reference), controllability, and their utility in real-world Bird's Eye View (BEV) segmentation. Notably, the generated data consistently outperforms the original stitched images in no-reference quality metrics and enhances downstream perception models. The source code will be publicly available at https://github.com/Bryant-Teng/Percep360.
- Abstract(参考訳): パノラマ認識は、自動運転車にとって大きな可能性を秘めており、車両は単一のショットで包括的な360{\deg}サラウンドビューを取得できる。
しかし、自動運転はデータ駆動のタスクである。
完全なパノラマデータ取得には複雑なサンプリングシステムとアノテーションパイプラインが必要です。
既存のストリートビュー生成モデルは、強力なデータ再生能力を示しているが、既存のデータセットの固定データ分布からしか学べず、高品質で制御可能なパノラマ生成を達成できない。
本稿では,自動運転のための最初のパノラマ生成手法Percep360を提案する。
Percep360は、縫合されたパノラマデータに基づく制御信号によるパノラマデータのコヒーレントな生成を可能にする。
Percep360はコヒーレンスと制御性という2つの重要な側面に焦点を当てている。
具体的には,ピンホールサンプリングによる固有情報損失を克服するために,局所シーン拡散法(LSDM)を提案する。
LSDMは空間的に連続した拡散過程としてパノラマ生成を再構成し、異なるデータ分布間のギャップを埋める。
さらに,パノラマ画像の制御可能な生成を実現するために,確率的プロンプト法(PPM)を提案する。
PPMは、最も関連性の高い制御キューを動的に選択し、制御可能なパノラマ画像生成を可能にする。
実世界のバードアイビュー(BEV)セグメンテーションにおいて,画像品質評価(参照なし,参照なし),制御性,それらの有用性という3つの視点から生成画像の有効性を評価する。
特に、生成されたデータは、非参照品質のメトリクスで元の縫合画像を一貫して上回り、下流の知覚モデルを強化する。
ソースコードはhttps://github.com/Bryant-Teng/Percep360で公開されている。
関連論文リスト
- DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - PerLDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models [55.080748327139176]
本稿では,3次元幾何学的情報を完全に活用したストリートビュー画像生成手法であるPerLDiffを紹介する。
PerLDiffは、ネットワーク学習プロセス内で正確なオブジェクトレベル制御でストリートビュー画像の生成をガイドするために、3次元の幾何学的事前情報を利用する。
PerLDiffはNuScenesとKITTIデータセット上での制御可能な生成の精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-07-08T16:46:47Z) - Capturing Omni-Range Context for Omnidirectional Segmentation [29.738065412097598]
本稿では,fovと画像領域間の構造分布のギャップを埋めるために,並列注意ネットワーク(ecanets)を導入する。
ラベル付きデータとラベルなしデータの両方を利用して、マルチソースとオムニバイザード学習を活用してモデルトレーニングをアップグレードします。
我々の新しいモデル、トレーニング規則およびマルチソース予測融合は、新しい最先端結果に性能(mIoU)を上昇させる。
論文 参考訳(メタデータ) (2021-03-09T19:46:09Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。