論文の概要: DiffPlace: Street View Generation via Place-Controllable Diffusion Model Enhancing Place Recognition
- arxiv url: http://arxiv.org/abs/2602.11875v1
- Date: Thu, 12 Feb 2026 12:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.803876
- Title: DiffPlace: Street View Generation via Place-Controllable Diffusion Model Enhancing Place Recognition
- Title(参考訳): DiffPlace:Place-Controllable Diffusion Modelによるストリートビュー生成による位置認識の実現
- Authors: Ji Li, Zhiwei Li, Shihao Li, Zhenjiang Yu, Boyang Wang, Haiou Liu,
- Abstract要約: DiffPlaceは、プレイスコントロール可能なマルチビュー画像生成を可能にするプレイスIDコントローラを導入する新しいフレームワークである。
本結果は,シーンレベルと場所認識合成の強化における生成モデルの可能性を強調した。
- 参考スコア(独自算出の注目度): 13.947159599420955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have advanced significantly in realistic image synthesis, with diffusion models excelling in quality and stability. Recent multi-view diffusion models improve 3D-aware street view generation, but they struggle to produce place-aware and background-consistent urban scenes from text, BEV maps, and object bounding boxes. This limits their effectiveness in generating realistic samples for place recognition tasks. To address these challenges, we propose DiffPlace, a novel framework that introduces a place-ID controller to enable place-controllable multi-view image generation. The place-ID controller employs linear projection, perceiver transformer, and contrastive learning to map place-ID embeddings into a fixed CLIP space, allowing the model to synthesize images with consistent background buildings while flexibly modifying foreground objects and weather conditions. Extensive experiments, including quantitative comparisons and augmented training evaluations, demonstrate that DiffPlace outperforms existing methods in both generation quality and training support for visual place recognition. Our results highlight the potential of generative models in enhancing scene-level and place-aware synthesis, providing a valuable approach for improving place recognition in autonomous driving
- Abstract(参考訳): 生成モデルは現実的な画像合成において著しく進歩し、拡散モデルは品質と安定性に優れた。
近年の多視点拡散モデルでは3D対応のストリートビュー生成が改良されているが,テキストやBEVマップ,オブジェクト境界ボックスから,場所認識および背景一貫性のある都市シーンの生成に苦慮している。
これにより、位置認識タスクの現実的なサンプル生成の有効性が制限される。
これらの課題に対処するために,位置制御可能なマルチビュー画像生成を可能にするプレースIDコントローラを導入した新しいフレームワークであるDiffPlaceを提案する。
プレイスIDコントローラは、線形投影、知覚変換器、コントラスト学習を用いて固定されたCLIP空間にプレースID埋め込みをマッピングし、モデルが前景の物体や気象条件を柔軟に修正しながら、一貫した背景構造で画像を合成することができる。
定量的比較や強化トレーニング評価を含む広範囲な実験により、DiffPlaceは、生成品質と視覚的位置認識のためのトレーニングサポートの両方において、既存の手法よりも優れていることが示された。
我々の研究結果は、シーンレベルと場所認識合成の強化における生成モデルの可能性を強調し、自律運転における位置認識を改善するための貴重なアプローチを提供する。
関連論文リスト
- ViewMorpher3D: A 3D-aware Diffusion Framework for Multi-Camera Novel View Synthesis in Autonomous Driving [20.935790354765604]
画像拡散モデルに基づく多視点画像拡張フレームワークであるViewMorpher3Dを紹介する。
シングルビューのアプローチとは異なり、ViewMorpher3Dはカメラのポーズに条件付けされた一連のレンダリングビュー、幾何学的先行3D、時間的に隣接または空間的に重複する参照ビューを共同で処理する。
我々のフレームワークは、様々なカメラとフレキシブルな参照/ターゲットビュー構成に対応しており、多様なセンサー設定に適応できる。
論文 参考訳(メタデータ) (2026-01-12T13:44:14Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Rendering Anywhere You See: Renderability Field-guided Gaussian Splatting [4.89907242398523]
本研究では、シーンビュー合成のためのレンダリング性フィールド誘導ガウススプラッティング(RF-GS)を提案する。
RF-GSはレンダリング性フィールドを通じて入力の不均一性を定量化し、擬似ビューサンプリングを視覚的整合性の向上に導く。
シミュレーションおよび実世界のデータを用いた実験により,本手法は従来のレンダリング安定性の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-27T14:41:01Z) - Unpaired Deblurring via Decoupled Diffusion Model [55.21345354747609]
UID-Diffは,未知領域における劣化性能の向上を目的とした生成拡散モデルである。
構造的特徴とぼかしパターン抽出器を別々に用いて, 抽出した特徴は, 合成データに対する教師付きデブロアリングタスクと教師なしのぼかし転送タスクに使用される。
実世界のデータセットの実験では、UID-Diffが既存の最先端の手法よりも、ぼやけた除去と構造保存に優れていることが示されている。
論文 参考訳(メタデータ) (2025-02-03T17:00:40Z) - StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models [76.62929629864034]
我々は,LDARポイントクラウドレンダリングをピクセルレベルの条件として利用する,制御可能なビデオ拡散モデルであるStreetCrafterを紹介する。
さらに、画素レベルのLiDAR条件を利用することで、ターゲットシーンに対して正確なピクセルレベルの編集を行うことができる。
我々のモデルは視点変化を柔軟に制御し、レンダリング領域を満たすためのビューを拡大する。
論文 参考訳(メタデータ) (2024-12-17T18:58:55Z) - From Bird's-Eye to Street View: Crafting Diverse and Condition-Aligned Images with Latent Diffusion Model [16.716345249091408]
我々は,バード・アイビューの生成を探索し,BEVマップを対応する多視点ストリートイメージに変換する。
提案手法は,ニューラルビュー変換とストリート画像生成の2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-09-02T07:47:16Z) - Learning 3D-Aware GANs from Unposed Images with Template Feature Field [33.32761749864555]
この研究は、未提示の画像から3D対応のGANを学習することを目的としている。
学習テンプレート特徴場(TeFF)を用いたトレーニング画像のオンザフライポーズ推定を提案する。
論文 参考訳(メタデータ) (2024-04-08T17:42:08Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。