論文の概要: AI's Blind Spots: Geographic Knowledge and Diversity Deficit in Generated Urban Scenario
- arxiv url: http://arxiv.org/abs/2506.16898v1
- Date: Fri, 20 Jun 2025 10:43:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.413579
- Title: AI's Blind Spots: Geographic Knowledge and Diversity Deficit in Generated Urban Scenario
- Title(参考訳): AIの盲点: 発生した都市シナリオにおける地理的知識と多様性の欠陥
- Authors: Ciro Beneduce, Massimiliano Luca, Bruno Lepri,
- Abstract要約: 我々は,2つの最先端モデルを用いて,米国各州および関連首都に対して150個の合成画像を生成した。
これらのモデルが米国地理の側面を暗黙的に学習しているのに対して、特定の都市や州の代わりに「米国」のイメージを生成するよう促すと、これらのモデルはメトロポリスのような領域に対して強い代表的偏見を示します。
- 参考スコア(独自算出の注目度): 4.315451628809687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image generation models are revolutionizing many domains, and urban analysis and design is no exception. While such models are widely adopted, there is a limited literature exploring their geographic knowledge, along with the biases they embed. In this work, we generated 150 synthetic images for each state in the USA and related capitals using FLUX 1 and Stable Diffusion 3.5, two state-of-the-art models for image generation. We embed each image using DINO-v2 ViT-S/14 and the Fr\'echet Inception Distances to measure the similarity between the generated images. We found that while these models have implicitly learned aspects of USA geography, if we prompt the models to generate an image for "United States" instead of specific cities or states, the models exhibit a strong representative bias toward metropolis-like areas, excluding rural states and smaller cities. {\color{black} In addition, we found that models systematically exhibit some entity-disambiguation issues with European-sounding names like Frankfort or Devon.
- Abstract(参考訳): 画像生成モデルは多くの領域に革命をもたらしており、都市分析とデザインは例外ではない。
このようなモデルは広く採用されているが、その地理的知識と埋め込んだバイアスを探求する文献は限られている。
本研究では, FLUX 1 と Stable Diffusion 3.5 を用いて, 米国各州と関連州に対して150個の合成画像を生成した。
DINO-v2 ViT-S/14とFr\echet Inception Distancesを用いて各画像を埋め込み、生成した画像間の類似度を測定する。
これらのモデルが米国地理の側面を暗黙的に学習しているのに対して、特定の都市や州の代わりに「米国」のイメージを生成するよう促すと、これらのモデルは、田舎の州や小さな都市を除いて、メトロポリスのような地域に対して強い代表的偏見を示します。
さらに、モデルがフランクフォートやデヴォンといったヨーロッパの発音でエンティティの曖昧さの問題を体系的に示していることがわかりました。
関連論文リスト
- The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation [53.837937703425794]
LanDiffは、自己回帰言語モデルと拡散モデルの強みを相乗化するハイブリッドフレームワークである。
本アーキテクチャでは,(1)効率的なセマンティック圧縮により3次元視覚特徴をコンパクトな1次元表現に圧縮するセマンティック・トークンー,(2)高レベルのセマンティックな関係を持つセマンティック・トークンを生成する言語モデル,(3)粗いセマンティクスを高忠実なビデオに洗練するストリーミング拡散モデルを紹介する。
論文 参考訳(メタデータ) (2025-03-06T16:53:14Z) - Uncovering Regional Defaults from Photorealistic Forests in Text-to-Image Generation with DALL-E 2 [5.534517268996598]
地域デフォルトは、テキスト・ツー・イメージ(T2I)基盤モデルが地理的な地域を過剰に描写する傾向にあるという新興現象を記述している。
本研究では,そのような地域的デフォルトを明らかにするためのスケーラブルな評価手法を提案する。
我々の発見は、T2I世代やその他の生成型AIの地理に関するさらなる調査の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-03T19:07:12Z) - The World Wide Recipe: A community-centred framework for fine-grained data collection and regional bias operationalisation [3.505416621482746]
本稿では,文化に配慮した参加型データ収集のためのフレームワークであるWorld Wideのレシピを紹介する。
バイアス運用を分析して、現在のシステムがいくつかの次元でどのようにパフォーマンスが低下しているかを強調します。
これらのT2Iモデルは、一般的に、各地域固有の料理の品質のアウトプットを生成しない。
論文 参考訳(メタデータ) (2024-06-13T18:00:00Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z) - Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文 参考訳(メタデータ) (2023-03-30T05:29:13Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。