論文の概要: Where Do Images Come From? Analyzing Captions to Geographically Profile Datasets
- arxiv url: http://arxiv.org/abs/2602.09775v1
- Date: Tue, 10 Feb 2026 13:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.549241
- Title: Where Do Images Come From? Analyzing Captions to Geographically Profile Datasets
- Title(参考訳): 画像はどこから来るのか? キャプションの分析から地理的なデータセットへ
- Authors: Abhipsa Basu, Yugam Bahl, Kirti Bhagat, Preethi Seshadri, R. Venkatesh Babu, Danish Pruthi,
- Abstract要約: LLMを用いてキャプションから抽出した位置情報に基づいて、画像キャプチャペアを国にマッピングすることで、大規模マルチモーダルデータセットを地理的にプロファイリングする。
アメリカ合衆国、イギリス、カナダはそれぞれ48.0%のサンプルを保有しており、南アメリカ、アフリカ諸国はそれぞれ1.8%のイメージと3.8%のイメージしか表現されていない。
- 参考スコア(独自算出の注目度): 33.86868726260716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies show that text-to-image models often fail to generate geographically representative images, raising concerns about the representativeness of their training data and motivating the question: which parts of the world do these training examples come from? We geographically profile large-scale multimodal datasets by mapping image-caption pairs to countries based on location information extracted from captions using LLMs. Studying English captions from three widely used datasets (Re-LAION, DataComp1B, and Conceptual Captions) across $20$ common entities (e.g., house, flag), we find that the United States, the United Kingdom, and Canada account for $48.0\%$ of samples, while South American and African countries are severely under-represented with only $1.8\%$ and $3.8\%$ of images, respectively. We observe a strong correlation between a country's GDP and its representation in the data ($ρ= 0.82$). Examining non-English subsets for $4$ languages from the Re-LAION dataset, we find that representation skews heavily toward countries where these languages are predominantly spoken. Additionally, we find that higher representation does not necessarily translate to greater visual or semantic diversity. Finally, analyzing country-specific images generated by Stable Diffusion v1.3 trained on Re-LAION, we show that while generations appear realistic, they are severely limited in their coverage compared to real-world images.
- Abstract(参考訳): 近年の研究では、テキスト・ツー・イメージのモデルは、しばしば地理的に代表される画像の生成に失敗し、トレーニングデータの表現性への懸念を提起し、その疑問を提起している。
LLMを用いてキャプションから抽出した位置情報に基づいて、画像キャプチャペアを国にマッピングすることで、大規模マルチモーダルデータセットを地理的にプロファイリングする。
広く使われている3つのデータセット(Re-LAION、DataComp1B、Conceptual Captions)から20ドルの共通のエンティティ(例えば、家、旗など)を対象に英語のキャプションを調べたところ、米国、英国、カナダが48.0.%のサンプルを保有しており、南アメリカ、アフリカ諸国はそれぞれ1.8.%のイメージと3.8.%のイメージしか表現されていない。
我々は、国のGDPとデータの表現(ρ=0.82ドル)との間に強い相関関係を観察する。
Re-LAIONデータセットから4ドル(約4,400円)の言語で非英語のサブセットを調べると、表現はこれらの言語が主に話されている国に大きく傾いていることが分かる。
さらに、高い表現が必ずしもより視覚的あるいは意味的な多様性に変換されないこともわかりました。
最後に、Re-LAIONで訓練された安定拡散v1.3で生成された国固有の画像を分析し、世代が現実的に見える一方で、実際の画像と比較して、その範囲が著しく制限されていることを示す。
関連論文リスト
- GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models [42.84755778627983]
テキスト・ツー・イメージ(T2I)モデルは急速に普及しているが、その出力には地理的多様性が欠如し、ステレオタイプが強化され、表示が間違っていた。
大規模言語と視覚言語モデルを活用した2つの相補的軸に沿った地理的多様性の評価フレームワークであるGeoDivを紹介する。
GeoDivは、多様性の一貫性の欠如を明らかにし、モデルがバイアスのある表現をデフォルトとする、きめ細かい属性を特定する。
論文 参考訳(メタデータ) (2026-02-25T17:08:43Z) - BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。
KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。
我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文 参考訳(メタデータ) (2024-11-12T00:52:52Z) - Multilingual Diversity Improves Vision-Language Representations [97.16233528393356]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z) - Geographic and Geopolitical Biases of Language Models [43.62238334380897]
プレトレーニング言語モデル(PLM)における地理的バイアス(と知識)の研究手法を提案する。
以上の結果から, PLMの表現は, 国・国・国間の関連性の観点から, 物理的世界と驚くほどよく一致していることが示唆された。
最後に, 地理的近接性の概念を呈するにもかかわらず, PLMがいかに大きいかを説明する。
論文 参考訳(メタデータ) (2022-12-20T16:32:54Z) - BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset [0.5893124686141781]
Banglaのようなリソース制約のある言語は、標準データセットの欠如が主な原因で、焦点が当てられていない。
Flickr8kで広く使われているデータセットのBAN-Capに続き、資格アノテータが提供した画像のBanglaキャプションを収集する。
テキスト増強の効果について検討し,適応的注意に基づくモデルと文脈的単語置換(CWR)を用いたテキスト増強が,Bangla画像キャプションの最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-28T15:39:09Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-03T20:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。