論文の概要: Text2Street: Controllable Text-to-image Generation for Street Views
- arxiv url: http://arxiv.org/abs/2402.04504v1
- Date: Wed, 7 Feb 2024 01:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 17:21:18.557678
- Title: Text2Street: Controllable Text-to-image Generation for Street Views
- Title(参考訳): Text2Street:ストリートビューのための制御可能なテキスト・画像生成
- Authors: Jinming Su, Songen Gu, Yiting Duan, Xingyue Chen and Junfeng Luo
- Abstract要約: 我々はtextbfText2Street という新しい制御可能なテキスト・ツー・イメージ・フレームワークを提案する。
提案手法は、制御可能なストリートビューのテキスト・ツー・イメージ生成を実現し、ストリートビューに対するText2Streetフレームワークの有効性を検証する。
- 参考スコア(独自算出の注目度): 2.2284889035802036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation has made remarkable progress with the emergence of
diffusion models. However, it is still a difficult task to generate images for
street views based on text, mainly because the road topology of street scenes
is complex, the traffic status is diverse and the weather condition is various,
which makes conventional text-to-image models difficult to deal with. To
address these challenges, we propose a novel controllable text-to-image
framework, named \textbf{Text2Street}. In the framework, we first introduce the
lane-aware road topology generator, which achieves text-to-map generation with
the accurate road structure and lane lines armed with the counting adapter,
realizing the controllable road topology generation. Then, the position-based
object layout generator is proposed to obtain text-to-layout generation through
an object-level bounding box diffusion strategy, realizing the controllable
traffic object layout generation. Finally, the multiple control image generator
is designed to integrate the road topology, object layout and weather
description to realize controllable street-view image generation. Extensive
experiments show that the proposed approach achieves controllable street-view
text-to-image generation and validates the effectiveness of the Text2Street
framework for street views.
- Abstract(参考訳): テキスト・画像生成は拡散モデルの出現とともに顕著な進歩を遂げた。
しかし、路面地形が複雑であり、交通状況が多様であり、気象条件も多様であるため、従来のテキスト・画像モデルでは対応が難しいため、テキストに基づくストリートビューの画像生成は依然として難しい課題である。
これらの課題に対処するために、新しい制御可能なテキスト・ツー・イメージ・フレームワークである \textbf{Text2Street} を提案する。
このフレームワークでは,まず,正確な道路構造とカウントアダプタを組み込んだレーン線を用いたテキスト・ツー・マップ生成を実現し,制御可能な道路トポロジ生成を実現する。
そこで, 位置に基づくオブジェクトレイアウト生成器を提案し, 制御可能なトラフィックオブジェクトレイアウト生成を実現するために, オブジェクトレベルのバウンディングボックス拡散戦略を用いてテキスト・ツー・レイアウト生成を実現する。
最後に、複数制御画像生成装置は、道路トポロジー、オブジェクトレイアウト、気象記述を統合して、制御可能なストリートビュー画像生成を実現するように設計されている。
広汎な実験により,提案手法は制御可能な街路ビューテキスト・画像生成を実現し,街路ビューに対するText2Streetフレームワークの有効性を検証した。
関連論文リスト
- Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion [61.929653153389964]
そこで本研究では,街並みを連続的に合成した街並みの景観を再現する手法を提案する。
我々の手法は、視覚的品質と一貫性を維持しつつ、複数の都市ブロックにまたがる、はるかに長い範囲のカメラ軌道にスケールすることができる。
論文 参考訳(メタデータ) (2024-07-18T17:56:30Z) - TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation [22.428046972339896]
Text-to-image (T2I) 世代は、テキストの適応から固定背景へのシフトを目撃している。
提案手法であるTextCenGenでは,テキストフレンドリーな画像生成のための空白領域の動的適応を導入している。
提案手法では,T2Iモデルにおいて,予め定義されたテキスト領域のホワイトスペースを戦略的に保留する画像を生成するために,力による注意誘導を用いる。
論文 参考訳(メタデータ) (2024-04-18T01:10:24Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。