Fugu-MT 論文翻訳(概要): Multi-View Depth Consistent Image Generation Using Generative AI Models: Application on Architectural Design of University Buildings

論文の概要: Multi-View Depth Consistent Image Generation Using Generative AI Models: Application on Architectural Design of University Buildings

arxiv url: http://arxiv.org/abs/2503.03068v1
Date: Wed, 05 Mar 2025 00:16:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 17:18:40.713506
Title: Multi-View Depth Consistent Image Generation Using Generative AI Models: Application on Architectural Design of University Buildings
Title（参考訳）: 生成型AIモデルを用いた多視点深度一貫性画像生成:大学ビルの建築設計への応用
Authors: Xusheng Du, Ruihan Gui, Zhengyang Wang, Ye Zhang, Haoran Xie,
Abstract要約: 生成AIモデルを用いた新しい3段階一貫した画像生成フレームワークを提案する。バックボーンとしてControlNetを使用し、アーキテクチャ靴箱モデルのマルチビュー入力に対応するように最適化する。実験により,提案フレームワークは,一貫したスタイルと構造コヒーレンスを持つマルチビューアーキテクチャ画像を生成することができることを示した。
参考スコア（独自算出の注目度）: 20.569648863933285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the early stages of architectural design, shoebox models are typically used as a simplified representation of building structures but require extensive operations to transform them into detailed designs. Generative artificial intelligence (AI) provides a promising solution to automate this transformation, but ensuring multi-view consistency remains a significant challenge. To solve this issue, we propose a novel three-stage consistent image generation framework using generative AI models to generate architectural designs from shoebox model representations. The proposed method enhances state-of-the-art image generation diffusion models to generate multi-view consistent architectural images. We employ ControlNet as the backbone and optimize it to accommodate multi-view inputs of architectural shoebox models captured from predefined perspectives. To ensure stylistic and structural consistency across multi-view images, we propose an image space loss module that incorporates style loss, structural loss and angle alignment loss. We then use depth estimation method to extract depth maps from the generated multi-view images. Finally, we use the paired data of the architectural images and depth maps as inputs to improve the multi-view consistency via the depth-aware 3D attention module. Experimental results demonstrate that the proposed framework can generate multi-view architectural images with consistent style and structural coherence from shoebox model inputs.
Abstract（参考訳）: 建築設計の初期段階では、靴箱モデルは通常、構造を単純化した表現として使用されるが、詳細な設計に変換するには広範な操作が必要である。生成的人工知能(AI)は、この変換を自動化するための有望なソリューションを提供するが、マルチビューの一貫性を保証することは大きな課題である。この問題を解決するために,生成AIモデルを用いた新しい3段階一貫した画像生成フレームワークを提案し,靴箱モデル表現からアーキテクチャ設計を生成する。提案手法は,最先端画像生成拡散モデルを拡張し,多視点一貫したアーキテクチャ画像を生成する。バックボーンとしてControlNetを使用し、事前定義された視点から取得したアーキテクチャ靴箱モデルのマルチビュー入力に対応するように最適化する。マルチビュー画像間のスタイリスティックかつ構造的整合性を確保するため,スタイル損失,構造損失,角度アライメント損失を組み込んだ画像空間損失モジュールを提案する。次に,生成した多視点画像から深度マップを抽出するために深度推定法を用いる。最後に、アーキテクチャ画像と深度マップのペアデータを入力として使用し、深度認識型3Dアテンションモジュールによる多視点整合性を改善する。実験により,靴箱モデル入力から一貫したスタイルと構造的コヒーレンスを持つマルチビューアーキテクチャ画像を生成することができることを示した。

関連論文リスト

CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。 CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文参考訳（メタデータ） (2025-03-11T03:08:43Z)
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。 IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文参考訳（メタデータ） (2024-12-16T18:52:56Z)
From Flat to Spatial: Comparison of 4 methods constructing 3D, 2 and 1/2D Models from 2D Plans with neural networks [0.0]
単一画像を2Dおよび1/2Dおよび3Dメッシュに変換することは、設計の可視化と効率を高めるための有望な技術である。本稿では,「1-2-3-45」,「CRM:畳み込み再構成モデルを用いた3次元テクスチャメッシュへのシングルイメージ」,「インスタントメッシュ」,「イメージ・トゥ・メッシュ」の4つの革新的な手法について検討する。
論文参考訳（メタデータ） (2024-07-29T13:01:20Z)
GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [51.97726804507328]
マルチビュー画像から3次元メッシュを再構成する手法を提案する。提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文参考訳（メタデータ） (2024-06-09T05:19:24Z)
Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。 DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文参考訳（メタデータ） (2023-10-11T12:46:11Z)
StructuredMesh: 3D Structured Optimization of Fa\c{c}ade Components on Photogrammetric Mesh Models using Binary Integer Programming [17.985961236568663]
我々は、フォトグラムメッシュモデル内の建物の規則性に応じてファサード構造を再構築する新しい手法であるStructuredMeshを提案する。本手法では,仮想カメラを用いて建物モデルの多視点色と深度画像を取得する。次に、深度画像を用いてこれらのボックスを3次元空間に再マップし、初期ファサードレイアウトを生成する。
論文参考訳（メタデータ） (2023-06-07T06:40:54Z)
CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文参考訳（メタデータ） (2022-03-22T16:13:27Z)
Generating Diverse Structure for Image Inpainting With Hierarchical VQ-VAE [74.29384873537587]
本稿では,異なる構造を持つ複数の粗い結果を第1段階で生成し,第2段階ではテクスチャを増補して各粗い結果を別々に洗練する,多彩な塗布用2段階モデルを提案する。 CelebA-HQ, Places2, ImageNetデータセットによる実験結果から,本手法は塗布ソリューションの多様性を向上するだけでなく,生成した複数の画像の視覚的品質も向上することが示された。
論文参考訳（メタデータ） (2021-03-18T05:10:49Z)
Hierarchical Amortized Training for Memory-efficient High Resolution 3D GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。トレーニングと推論の異なる構成を使用することで、この目標を達成する。 3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文参考訳（メタデータ） (2020-08-05T02:33:04Z)
Generating Annotated High-Fidelity Images Containing Multiple Coherent Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文参考訳（メタデータ） (2020-06-22T11:33:55Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)
Multimodal Deep Unfolding for Guided Image Super-Resolution [23.48305854574444]
ディープラーニング手法は、低解像度の入力から高解像度の出力へのエンドツーエンドのマッピングを学習するために、トレーニングデータに依存する。本稿では,スパース事前を組み込んだマルチモーダル深層学習設計を提案し,他の画像モダリティからの情報をネットワークアーキテクチャに効果的に統合する。提案手法は,サイド情報を用いた畳み込みスパース符号化の反復的アルゴリズムに類似した,新しい展開演算子に依存している。
論文参考訳（メタデータ） (2020-01-21T14:41:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。