Fugu-MT 論文翻訳(概要): PerlDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models

論文の概要: PerlDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models

arxiv url: http://arxiv.org/abs/2407.06109v2
Date: Tue, 16 Jul 2024 14:05:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 20:20:06.390368
Title: PerlDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models
Title（参考訳）: PerlDiff:パースペクティブレイアウト拡散モデルを用いた制御可能なストリートビュー合成
Authors: Jinhua Zhang, Hualian Sheng, Sijia Cai, Bing Deng, Qiao Liang, Wen Li, Ying Fu, Jieping Ye, Shuhang Gu,
Abstract要約: PerlDiffは、3次元幾何学情報を完全に活用した効果的なストリートビュー画像生成手法である。この結果から,我々のPerlDiffはNuScenesおよびKITTIデータセットの生成精度を著しく向上させることがわかった。
参考スコア（独自算出の注目度）: 55.080748327139176
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Controllable generation is considered a potentially vital approach to address the challenge of annotating 3D data, and the precision of such controllable generation becomes particularly imperative in the context of data production for autonomous driving. Existing methods focus on the integration of diverse generative information into controlling inputs, utilizing frameworks such as GLIGEN or ControlNet, to produce commendable outcomes in controllable generation. However, such approaches intrinsically restrict generation performance to the learning capacities of predefined network architectures. In this paper, we explore the integration of controlling information and introduce PerlDiff (Perspective-Layout Diffusion Models), a method for effective street view image generation that fully leverages perspective 3D geometric information. Our PerlDiff employs 3D geometric priors to guide the generation of street view images with precise object-level control within the network learning process, resulting in a more robust and controllable output. Moreover, it demonstrates superior controllability compared to alternative layout control methods. Empirical results justify that our PerlDiff markedly enhances the precision of generation on the NuScenes and KITTI datasets. Our codes and models are publicly available at https://github.com/LabShuHangGU/PerlDiff.
Abstract（参考訳）: 制御可能な生成は3次元データのアノテートという課題に対処するための潜在的に不可欠なアプローチと考えられており、このような制御可能な生成の精度は、自律運転のデータ生産の文脈において特に不可欠である。既存の手法は、GLIGENやControlNetといったフレームワークを利用して、様々な生成情報を入力を制御することに集中し、制御可能な生成において可換な結果を生成する。しかし、そのようなアプローチは、本質的には、事前に定義されたネットワークアーキテクチャの学習能力に、生成性能を制限している。本稿では,3次元幾何学的情報を完全に活用したストリートビュー画像生成手法であるPerlDiff(Perspective-Layout Diffusion Models)を導入する。我々のPerlDiffは、ネットワーク学習プロセス内で正確なオブジェクトレベル制御でストリートビュー画像の生成をガイドするために、3次元の幾何学的事前情報を用いており、その結果、より堅牢で制御可能な出力が得られる。さらに、代替レイアウト制御法よりも優れた制御性を示す。 PerlDiffはNuScenesとKITTIデータセットの生成精度を著しく向上させる。私たちのコードとモデルはhttps://github.com/LabShuHangGU/PerlDiff.comで公開されています。

関連論文リスト

SCALAR: Scale-wise Controllable Visual Autoregressive Learning [15.775596699630633]
視覚自己回帰(VAR)に基づく制御可能な生成法であるSCALARを提案する。予め訓練された画像エンコーダを用いて意味制御信号の符号化を抽出し,VARバックボーンの対応する層に注入する。 SCALAR上に構築したSCALAR-Uniは,複数の制御モダリティを共有潜在空間に整合させる統合拡張であり,単一のモデルで柔軟なマルチ条件ガイダンスをサポートする。
論文参考訳（メタデータ） (2025-07-26T13:23:08Z)
A Practical Investigation of Spatially-Controlled Image Generation with Transformers [16.682348277650817]
我々は,空間的に制御された生成システムを開発したいと考える実践者に対して,世代パラダイムをまたいだ明確なテイクアウトを提供することを目指している。我々は、拡散ベース/フローベースおよび自己回帰(AR)モデル間で、ImageNet上で制御実験を行う。
論文参考訳（メタデータ） (2025-07-21T15:33:49Z)
F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文参考訳（メタデータ） (2025-01-12T04:44:44Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文参考訳（メタデータ） (2024-06-14T06:35:33Z)
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning [52.81032340916171]
Coin3Dを使えば、ユーザーは基本的な形状から組み立てられた粗い幾何学的プロキシを使って3D生成を制御できる。本手法は,3次元アセット生成タスクにおいて,制御性と柔軟性に優れる。
論文参考訳（メタデータ） (2024-05-13T17:56:13Z)
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。 MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文参考訳（メタデータ） (2024-03-15T02:57:20Z)
Fine-grained Controllable Video Generation via Object Appearance and Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。 FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文参考訳（メタデータ） (2023-12-05T17:47:33Z)
Controllable Data Generation Via Iterative Data-Property Mutual Mappings [13.282793266390316]
本稿では,VAEベースのデータジェネレータを特性制御性で拡張し,乱れを確実にするフレームワークを提案する。提案フレームワークは, 特性誤差, ゆがみ, 生成品質, トレーニング時間に関する性能評価を行うために, VAEベースの4つの制御可能ジェネレータ上に実装されている。
論文参考訳（メタデータ） (2023-10-11T17:34:56Z)
Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。実験結果を実証し,本手法の有効性について考察する。
論文参考訳（メタデータ） (2023-09-07T08:14:46Z)
DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory [126.4597063554213]
DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
論文参考訳（メタデータ） (2023-08-16T01:43:41Z)
Control3Diff: Learning Controllable 3D Diffusion Models from Single-view Images [70.17085345196583]
Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。 FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
論文参考訳（メタデータ） (2023-04-13T17:52:29Z)
Towards a Neural Graphics Pipeline for Controllable Image Generation [96.11791992084551]
ニューラルグラフパイプライン(NGP)は,ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルである。 NGPは、画像を解釈可能な外観特徴マップの集合に分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。単目的シーンの制御可能な画像生成におけるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2020-06-18T14:22:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。