Fugu-MT 論文翻訳(概要): Hallucinating 360°: Panoramic Street-View Generation via Local Scenes Diffusion and Probabilistic Prompting

論文の概要: Hallucinating 360°: Panoramic Street-View Generation via Local Scenes Diffusion and Probabilistic Prompting

arxiv url: http://arxiv.org/abs/2507.06971v2
Date: Thu, 10 Jul 2025 01:50:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 12:24:00.103233
Title: Hallucinating 360°: Panoramic Street-View Generation via Local Scenes Diffusion and Probabilistic Prompting
Title（参考訳）: 360°の幻覚:局所的なシーン拡散と確率的プロンプティングによるパノラマストリートビュー生成
Authors: Fei Teng, Kai Luo, Sheng Wu, Siyu Li, Pujun Guo, Jiale Wei, Kunyu Peng, Jiaming Zhang, Kailun Yang,
Abstract要約: 自動運転のための最初のパノラマ生成法Percep360を提案する。 Percep360は、縫合されたパノラマデータに基づく制御信号によるパノラマデータのコヒーレントな生成を可能にする。生成した画像の有効性を3つの視点から評価した。
参考スコア（独自算出の注目度）: 20.14129939772052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Panoramic perception holds significant potential for autonomous driving, enabling vehicles to acquire a comprehensive 360{\deg} surround view in a single shot. However, autonomous driving is a data-driven task. Complete panoramic data acquisition requires complex sampling systems and annotation pipelines, which are time-consuming and labor-intensive. Although existing street view generation models have demonstrated strong data regeneration capabilities, they can only learn from the fixed data distribution of existing datasets and cannot achieve high-quality, controllable panoramic generation. In this paper, we propose the first panoramic generation method Percep360 for autonomous driving. Percep360 enables coherent generation of panoramic data with control signals based on the stitched panoramic data. Percep360 focuses on two key aspects: coherence and controllability. Specifically, to overcome the inherent information loss caused by the pinhole sampling process, we propose the Local Scenes Diffusion Method (LSDM). LSDM reformulates the panorama generation as a spatially continuous diffusion process, bridging the gaps between different data distributions. Additionally, to achieve the controllable generation of panoramic images, we propose a Probabilistic Prompting Method (PPM). PPM dynamically selects the most relevant control cues, enabling controllable panoramic image generation. We evaluate the effectiveness of the generated images from three perspectives: image quality assessment (i.e., no-reference and with reference), controllability, and their utility in real-world Bird's Eye View (BEV) segmentation. Notably, the generated data consistently outperforms the original stitched images in no-reference quality metrics and enhances downstream perception models. The source code will be publicly available at https://github.com/Bryant-Teng/Percep360.
Abstract（参考訳）: パノラマ認識は、自動運転車にとって大きな可能性を秘めており、車両は単一のショットで包括的な360{\deg}サラウンドビューを取得できる。しかし、自動運転はデータ駆動のタスクである。完全なパノラマデータ取得には複雑なサンプリングシステムとアノテーションパイプラインが必要です。既存のストリートビュー生成モデルは、強力なデータ再生能力を示しているが、既存のデータセットの固定データ分布からしか学べず、高品質で制御可能なパノラマ生成を達成できない。本稿では,自動運転のための最初のパノラマ生成手法Percep360を提案する。 Percep360は、縫合されたパノラマデータに基づく制御信号によるパノラマデータのコヒーレントな生成を可能にする。 Percep360はコヒーレンスと制御性という2つの重要な側面に焦点を当てている。具体的には,ピンホールサンプリングによる固有情報損失を克服するために,局所シーン拡散法(LSDM)を提案する。 LSDMは空間的に連続した拡散過程としてパノラマ生成を再構成し、異なるデータ分布間のギャップを埋める。さらに,パノラマ画像の制御可能な生成を実現するために,確率的プロンプト法(PPM)を提案する。 PPMは、最も関連性の高い制御キューを動的に選択し、制御可能なパノラマ画像生成を可能にする。実世界のバードアイビュー(BEV)セグメンテーションにおいて,画像品質評価(参照なし,参照なし),制御性,それらの有用性という3つの視点から生成画像の有効性を評価する。特に、生成されたデータは、非参照品質のメトリクスで元の縫合画像を一貫して上回り、下流の知覚モデルを強化する。ソースコードはhttps://github.com/Bryant-Teng/Percep360で公開されている。

関連論文リスト

SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation [31.305851707485967]
そこで我々はSphereDiffを紹介した。これはシームレスな360度パノラマ画像とビデオ生成のための新しいアプローチである。我々は,多次元拡散を球状潜在空間に拡張し,事前学習した拡散モデルの直接利用を可能にする球状潜在サンプリング法を提案する。提案手法は,高忠実度を維持しながら360度パノラマコンテンツを生成する既存手法よりも優れており,没入型AR/VRアプリケーションのための堅牢なソリューションとなっている。
論文参考訳（メタデータ） (2025-04-19T19:59:11Z)
DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。 DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文参考訳（メタデータ） (2024-10-31T17:57:02Z)
PerLDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models [55.080748327139176]
本稿では,3次元幾何学的情報を完全に活用したストリートビュー画像生成手法であるPerLDiffを紹介する。 PerLDiffは、ネットワーク学習プロセス内で正確なオブジェクトレベル制御でストリートビュー画像の生成をガイドするために、3次元の幾何学的事前情報を利用する。 PerLDiffはNuScenesとKITTIデータセット上での制御可能な生成の精度を著しく向上させる。
論文参考訳（メタデータ） (2024-07-08T16:46:47Z)
MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
MagicDrive3Dは、コントロール可能な3Dストリートシーン生成のための新しいフレームワークである。ロードマップ、3Dオブジェクト、テキスト記述を含むマルチコンディション制御をサポートする。多様な高品質な3Dドライビングシーンを生成し、任意のビューレンダリングをサポートし、BEVセグメンテーションのような下流タスクを強化する。
論文参考訳（メタデータ） (2024-05-23T12:04:51Z)
360-Degree Panorama Generation from Few Unregistered NFoV Images [16.05306624008911]
360$circ$パノラマはコンピュータグラフィックスの環境光源として広く利用されている。 360ドルドルタイムス 180ドルパノラマは特殊で高価な装置のために困難を招きますパノディフと呼ばれる新しいパイプラインを提案し、パノラマを360ドル円で効率よく生成する。
論文参考訳（メタデータ） (2023-08-28T16:21:51Z)
Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文参考訳（メタデータ） (2023-01-11T18:39:34Z)
SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-04-07T17:58:47Z)
Capturing Omni-Range Context for Omnidirectional Segmentation [29.738065412097598]
本稿では,fovと画像領域間の構造分布のギャップを埋めるために,並列注意ネットワーク(ecanets)を導入する。ラベル付きデータとラベルなしデータの両方を利用して、マルチソースとオムニバイザード学習を活用してモデルトレーニングをアップグレードします。我々の新しいモデル、トレーニング規則およびマルチソース予測融合は、新しい最先端結果に性能(mIoU)を上昇させる。
論文参考訳（メタデータ） (2021-03-09T19:46:09Z)
Panoramic Panoptic Segmentation: Towards Complete Surrounding Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。完全な周囲の理解は、エージェントに最大限の情報を提供する。標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-01T09:37:27Z)
A Fixation-based 360{\deg} Benchmark Dataset for Salient Object Detection [21.314578493964333]
パノラマコンテンツ中の固定予測(FP)は、仮想現実(VR)アプリケーションの普及傾向とともに広く研究されている。静止物体検出(SOD)は、実際のシーンを表すデータセットが欠如しているため、360度画像ではめったに探索されていない。
論文参考訳（メタデータ） (2020-01-22T11:16:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。