論文の概要: GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models
- arxiv url: http://arxiv.org/abs/2602.22120v1
- Date: Wed, 25 Feb 2026 17:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.923327
- Title: GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models
- Title(参考訳): GeoDiv:テキスト・画像モデルにおける地理的多様性の測定フレームワーク
- Authors: Abhipsa Basu, Mohana Singh, Shashank Agnihotri, Margret Keuper, R. Venkatesh Babu,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは急速に普及しているが、その出力には地理的多様性が欠如し、ステレオタイプが強化され、表示が間違っていた。
大規模言語と視覚言語モデルを活用した2つの相補的軸に沿った地理的多様性の評価フレームワークであるGeoDivを紹介する。
GeoDivは、多様性の一貫性の欠如を明らかにし、モデルがバイアスのある表現をデフォルトとする、きめ細かい属性を特定する。
- 参考スコア(独自算出の注目度): 42.84755778627983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) models are rapidly gaining popularity, yet their outputs often lack geographical diversity, reinforce stereotypes, and misrepresent regions. Given their broad reach, it is critical to rigorously evaluate how these models portray the world. Existing diversity metrics either rely on curated datasets or focus on surface-level visual similarity, limiting interpretability. We introduce GeoDiv, a framework leveraging large language and vision-language models to assess geographical diversity along two complementary axes: the Socio-Economic Visual Index (SEVI), capturing economic and condition-related cues, and the Visual Diversity Index (VDI), measuring variation in primary entities and backgrounds. Applied to images generated by models such as Stable Diffusion and FLUX.1-dev across $10$ entities and $16$ countries, GeoDiv reveals a consistent lack of diversity and identifies fine-grained attributes where models default to biased portrayals. Strikingly, depictions of countries like India, Nigeria, and Colombia are disproportionately impoverished and worn, reflecting underlying socio-economic biases. These results highlight the need for greater geographical nuance in generative models. GeoDiv provides the first systematic, interpretable framework for measuring such biases, marking a step toward fairer and more inclusive generative systems. Project page: https://abhipsabasu.github.io/geodiv
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは急速に普及しているが、その出力には地理的多様性が欠如し、ステレオタイプが強化され、表示が間違っていた。
範囲が広いことから、これらのモデルがどのように世界を描写しているかを厳格に評価することが重要である。
既存の多様性メトリクスは、キュレートされたデータセットに依存するか、表面レベルの視覚的類似性に注目し、解釈可能性を制限する。
大規模言語モデルと視覚言語モデルを活用するフレームワークであるGeoDivを導入し,2つの相補的軸に沿って地理的多様性を評価する。
安定拡散(Stable Diffusion)やFLUX.1-dev(FLUX.1-dev)などの10ドルのエンティティと16ドルの国にまたがるモデルによって生成された画像に対して、GeoDivは多様性の一貫性の欠如を明らかにし、モデルがバイアスのある描写にデフォルトとなる詳細な属性を特定する。
興味深いことに、インド、ナイジェリア、コロンビアなどの国々の描写は、社会的・経済的な偏見を反映して、不当に貧弱で着用されている。
これらの結果は、生成モデルにおける地理的ニュアンスの向上の必要性を浮き彫りにする。
GeoDivはそのようなバイアスを測定するための最初の体系的で解釈可能なフレームワークを提供しており、より公平で包括的な生成システムへの一歩を示している。
プロジェクトページ:https://abhipsabasu.github.io/geodiv
関連論文リスト
- AI's Blind Spots: Geographic Knowledge and Diversity Deficit in Generated Urban Scenario [4.315451628809687]
我々は,2つの最先端モデルを用いて,米国各州および関連首都に対して150個の合成画像を生成した。
これらのモデルが米国地理の側面を暗黙的に学習しているのに対して、特定の都市や州の代わりに「米国」のイメージを生成するよう促すと、これらのモデルはメトロポリスのような領域に対して強い代表的偏見を示します。
論文 参考訳(メタデータ) (2025-06-20T10:43:22Z) - Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance [12.33170407159189]
最先端のテキスト・トゥ・イメージ生成モデルでは、日常の物体を現実世界の真の多様性で描写するのに苦労する。
本稿では, 遅延拡散モデルの後方ステップを導出し, サンプルの多様性を高めるための推論時間介入, 文脈化されたVendi Score Guidance(c-VSG)を導入する。
c-VSGは、画像の品質と一貫性を同時に維持または改善しつつ、最もパフォーマンスの悪い領域と平均の両方において、生成画像の多様性を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-06T23:35:51Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - GIVL: Improving Geographical Inclusivity of Vision-Language Models with
Pre-Training Methods [62.076647211744564]
我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。
1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。
GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-01-05T03:43:45Z) - Measuring Geographic Performance Disparities of Offensive Language
Classifiers [12.545108947857802]
「言語、方言、話題の内容は地域によって異なるのか?」「地域によって異なる場合、モデルのパフォーマンスに影響を及ぼすのか?」
同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。
論文 参考訳(メタデータ) (2022-09-15T15:08:18Z) - Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.04866469947569]
地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。
その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文 参考訳(メタデータ) (2021-09-14T17:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。