論文の概要: UrbanGenAI: Reconstructing Urban Landscapes using Panoptic Segmentation
and Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.14379v1
- Date: Thu, 25 Jan 2024 18:30:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 13:30:46.901588
- Title: UrbanGenAI: Reconstructing Urban Landscapes using Panoptic Segmentation
and Diffusion Models
- Title(参考訳): UrbanGenAI:汎視的セグメンテーションと拡散モデルによる都市景観の再構築
- Authors: Timo Kapsalis
- Abstract要約: 本稿では,都市デザインへの包括的アプローチとして,高度な画像分割と拡散モデルの相乗効果を活用するために,プロトタイプアプリケーション内にカプセル化された新しいワークフローを提案する。
評価の結果,プロトタイプアプリケーションによる高い性能を示し,オブジェクト検出とテキスト・ツー・イメージ生成の両面で有意な精度を示した。
予備試験には、デザイン教育における学習経験を高める教育ツールとしてのUrbanGenAIの活用と、コミュニティ主導の都市計画を促進する参加型機器の活用が含まれていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contemporary design practices, the integration of computer vision and
generative artificial intelligence (genAI) represents a transformative shift
towards more interactive and inclusive processes. These technologies offer new
dimensions of image analysis and generation, which are particularly relevant in
the context of urban landscape reconstruction. This paper presents a novel
workflow encapsulated within a prototype application, designed to leverage the
synergies between advanced image segmentation and diffusion models for a
comprehensive approach to urban design. Our methodology encompasses the
OneFormer model for detailed image segmentation and the Stable Diffusion XL
(SDXL) diffusion model, implemented through ControlNet, for generating images
from textual descriptions. Validation results indicated a high degree of
performance by the prototype application, showcasing significant accuracy in
both object detection and text-to-image generation. This was evidenced by
superior Intersection over Union (IoU) and CLIP scores across iterative
evaluations for various categories of urban landscape features. Preliminary
testing included utilising UrbanGenAI as an educational tool enhancing the
learning experience in design pedagogy, and as a participatory instrument
facilitating community-driven urban planning. Early results suggested that
UrbanGenAI not only advances the technical frontiers of urban landscape
reconstruction but also provides significant pedagogical and participatory
planning benefits. The ongoing development of UrbanGenAI aims to further
validate its effectiveness across broader contexts and integrate additional
features such as real-time feedback mechanisms and 3D modelling capabilities.
Keywords: generative AI; panoptic image segmentation; diffusion models; urban
landscape design; design pedagogy; co-design
- Abstract(参考訳): 現代のデザイン実践において、コンピュータビジョンと生成型人工知能(genai)の統合は、よりインタラクティブで包括的なプロセスへの転換を意味する。
これらの技術は画像解析と生成の新しい次元を提供し、特に都市景観復元の文脈に関連している。
本稿では,高度画像セグメンテーションと拡散モデルとの相乗効果を活かし,都市設計への包括的アプローチとして,プロトタイプアプリケーション内にカプセル化された新しいワークフローを提案する。
本手法は,詳細な画像分割のためのOneFormerモデルと,テキスト記述から画像を生成するためのControlNetによって実装されたSDXL拡散モデルを含む。
検証の結果,プロトタイプによる高い性能を示し,オブジェクト検出とテキスト・ツー・イメージ生成の両面で有意な精度を示した。
これは、都市景観の特徴の様々なカテゴリに対する反復的な評価において、IoU(Intersection over Union)とCLIP(CLIP)によって証明された。
予備試験には、デザイン教育における学習経験を高める教育ツールとしてのUrbanGenAIの活用と、コミュニティ主導の都市計画を促進する参加型機器の活用が含まれていた。
初期の結果は、都市景観復興の技術的フロンティアを前進させるだけでなく、教育的かつ参加的な計画上のメリットももたらすことを示唆している。
UrbanGenAIの継続的な開発は、より広いコンテキストにわたってその有効性を検証し、リアルタイムフィードバック機構や3Dモデリング機能などの追加機能を統合することを目的としている。
キーワード:生成ai、汎視画像分割、拡散モデル、都市景観デザイン、デザイン教育、共同設計
関連論文リスト
- Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - State of the Art on Diffusion Models for Visual Computing [191.6168813012954]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。
また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。
利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文 参考訳(メタデータ) (2023-10-11T05:32:29Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Generative methods for Urban design and rapid solution space exploration [13.222198221605701]
本研究では,テンソル場に基づく都市モデルツールキットの実装について紹介する。
提案手法は,ウォーターフロントエッジ,地形,ビュー軸,既存道路,ランドマーク,非幾何学的設計入力などのコンテキスト制約を符号化する。
これによりユーザーは、モデル入力がほとんどない現実世界の都市に似た、多様な都市ファブリック構成を作成できる。
論文 参考訳(メタデータ) (2022-12-13T17:58:02Z) - Explainability of Deep Learning models for Urban Space perception [9.422663267011913]
本研究では,都市空間に対する人々の認識に関する政策情報を,コンピュータビジョンモデルを用いて抽出する方法について検討した。
私たちは、畳み込みニューラルネットワークとトランスフォーマーという、2つの広く使われているコンピュータビジョンアーキテクチャをトレーニングし、よく知られた説明可能なAIテクニックであるGradCAMを適用して、モデルの予測に重要な画像領域を強調します。
論文 参考訳(メタデータ) (2022-08-29T12:44:48Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Dynamically Grown Generative Adversarial Networks [111.43128389995341]
本稿では、ネットワークアーキテクチャとそのパラメータを自動化とともに最適化し、トレーニング中にGANを動的に成長させる手法を提案する。
本手法はアーキテクチャ探索手法を勾配に基づく訓練とインターリーブステップとして組み込んで,ジェネレータと識別器の最適アーキテクチャ成長戦略を定期的に探究する。
論文 参考訳(メタデータ) (2021-06-16T01:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。