論文の概要: Uncovering Regional Defaults from Photorealistic Forests in Text-to-Image Generation with DALL-E 2
- arxiv url: http://arxiv.org/abs/2410.17255v1
- Date: Thu, 03 Oct 2024 19:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-27 06:14:52.173727
- Title: Uncovering Regional Defaults from Photorealistic Forests in Text-to-Image Generation with DALL-E 2
- Title(参考訳): DALL-Eによるテキスト・画像生成における光リアリスティック森林からの地域デフォルトの発見(その2)
- Authors: Zilong Liu, Krzysztof Janowicz, Kitty Currier, Meilin Shi,
- Abstract要約: 地域デフォルトは、テキスト・ツー・イメージ(T2I)基盤モデルが地理的な地域を過剰に描写する傾向にあるという新興現象を記述している。
本研究では,そのような地域的デフォルトを明らかにするためのスケーラブルな評価手法を提案する。
我々の発見は、T2I世代やその他の生成型AIの地理に関するさらなる調査の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 5.534517268996598
- License:
- Abstract: Regional defaults describe the emerging phenomenon that text-to-image (T2I) foundation models used in generative AI are prone to over-proportionally depicting certain geographic regions to the exclusion of others. In this work, we introduce a scalable evaluation for uncovering such regional defaults. The evaluation consists of region hierarchy--based image generation and cross-level similarity comparisons. We carry out an experiment by prompting DALL-E 2, a state-of-the-art T2I generation model capable of generating photorealistic images, to depict a forest. We select forest as an object class that displays regional variation and can be characterized using spatial statistics. For a region in the hierarchy, our experiment reveals the regional defaults implicit in DALL-E 2, along with their scale-dependent nature and spatial relationships. In addition, we discover that the implicit defaults do not necessarily correspond to the most widely forested regions in reality. Our findings underscore a need for further investigation into the geography of T2I generation and other forms of generative AI.
- Abstract(参考訳): 地域的デフォルトは、生成AIで使用されるテキスト・ツー・イメージ(T2I)基盤モデルが、他を除外する特定の地理的領域を過剰に描写する傾向にある、という新興現象を記述している。
本研究では,そのような地域的デフォルトを明らかにするためのスケーラブルな評価手法を提案する。
評価は、領域階層に基づく画像生成とクロスレベル類似性比較からなる。
我々は,森林を描写するために,光写実画像を生成することのできる最先端のT2I生成モデルであるDALL-E2を誘導して実験を行う。
本研究では,地域変動を示すオブジェクトクラスとしてフォレストを選択し,空間統計を用いて特徴付けることができる。
階層内の領域について、DALL-E 2における領域のデフォルトを、スケール依存の性質や空間的関係とともに暗黙的に示す実験を行った。
さらに、暗黙のデフォルトは、現実の最も広く森林地帯と必ずしも一致しないことがわかった。
我々の発見は、T2I世代やその他の生成型AIの地理に関するさらなる調査の必要性を浮き彫りにしている。
関連論文リスト
- Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection [20.630629383286262]
オープン・ボキャブラリ・オブジェクト検出は、地域-セマンティック関係のソリッド・モデリングを必要とする。
拡張性のあるオープン語彙領域-テキストペアを生成するRTGenを提案する。
論文 参考訳(メタデータ) (2024-05-30T09:03:23Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文 参考訳(メタデータ) (2023-03-30T05:29:13Z) - GIVL: Improving Geographical Inclusivity of Vision-Language Models with
Pre-Training Methods [62.076647211744564]
我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。
1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。
GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-01-05T03:43:45Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Formatting the Landscape: Spatial conditional GAN for varying population
in satellite imagery [0.0]
人口の地理的分布の変化は、土地利用と土地被覆に劇的な影響を及ぼす。
格子状人口分布に基づく衛星画像生成のための生成モデルフレームワークについて検討する。
論文 参考訳(メタデータ) (2020-12-08T13:31:49Z) - Local Class-Specific and Global Image-Level Generative Adversarial
Networks for Semantic-Guided Scene Generation [135.4660201856059]
局所的な文脈でシーン生成を学習し、意味マップをガイダンスとして、局所的なクラス固有の生成ネットワークを設計する。
局所生成のための識別クラス固有の特徴表現をより学習するために,新しい分類モジュールを提案する。
2つのシーン画像生成タスクの実験は、提案したモデルのより優れた生成性能を示す。
論文 参考訳(メタデータ) (2019-12-27T16:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。