論文の概要: Where Do Images Come From? Analyzing Captions to Geographically Profile Datasets
- arxiv url: http://arxiv.org/abs/2602.09775v1
- Date: Tue, 10 Feb 2026 13:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.549241
- Title: Where Do Images Come From? Analyzing Captions to Geographically Profile Datasets
- Title(参考訳): 画像はどこから来るのか? キャプションの分析から地理的なデータセットへ
- Authors: Abhipsa Basu, Yugam Bahl, Kirti Bhagat, Preethi Seshadri, R. Venkatesh Babu, Danish Pruthi,
- Abstract要約: LLMを用いてキャプションから抽出した位置情報に基づいて、画像キャプチャペアを国にマッピングすることで、大規模マルチモーダルデータセットを地理的にプロファイリングする。
アメリカ合衆国、イギリス、カナダはそれぞれ48.0%のサンプルを保有しており、南アメリカ、アフリカ諸国はそれぞれ1.8%のイメージと3.8%のイメージしか表現されていない。
- 参考スコア(独自算出の注目度): 33.86868726260716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies show that text-to-image models often fail to generate geographically representative images, raising concerns about the representativeness of their training data and motivating the question: which parts of the world do these training examples come from? We geographically profile large-scale multimodal datasets by mapping image-caption pairs to countries based on location information extracted from captions using LLMs. Studying English captions from three widely used datasets (Re-LAION, DataComp1B, and Conceptual Captions) across $20$ common entities (e.g., house, flag), we find that the United States, the United Kingdom, and Canada account for $48.0\%$ of samples, while South American and African countries are severely under-represented with only $1.8\%$ and $3.8\%$ of images, respectively. We observe a strong correlation between a country's GDP and its representation in the data ($ρ= 0.82$). Examining non-English subsets for $4$ languages from the Re-LAION dataset, we find that representation skews heavily toward countries where these languages are predominantly spoken. Additionally, we find that higher representation does not necessarily translate to greater visual or semantic diversity. Finally, analyzing country-specific images generated by Stable Diffusion v1.3 trained on Re-LAION, we show that while generations appear realistic, they are severely limited in their coverage compared to real-world images.
- Abstract(参考訳): 近年の研究では、テキスト・ツー・イメージのモデルは、しばしば地理的に代表される画像の生成に失敗し、トレーニングデータの表現性への懸念を提起し、その疑問を提起している。
LLMを用いてキャプションから抽出した位置情報に基づいて、画像キャプチャペアを国にマッピングすることで、大規模マルチモーダルデータセットを地理的にプロファイリングする。
広く使われている3つのデータセット(Re-LAION、DataComp1B、Conceptual Captions)から20ドルの共通のエンティティ(例えば、家、旗など)を対象に英語のキャプションを調べたところ、米国、英国、カナダが48.0.%のサンプルを保有しており、南アメリカ、アフリカ諸国はそれぞれ1.8.%のイメージと3.8.%のイメージしか表現されていない。
我々は、国のGDPとデータの表現(ρ=0.82ドル)との間に強い相関関係を観察する。
Re-LAIONデータセットから4ドル(約4,400円)の言語で非英語のサブセットを調べると、表現はこれらの言語が主に話されている国に大きく傾いていることが分かる。
さらに、高い表現が必ずしもより視覚的あるいは意味的な多様性に変換されないこともわかりました。
最後に、Re-LAIONで訓練された安定拡散v1.3で生成された国固有の画像を分析し、世代が現実的に見える一方で、実際の画像と比較して、その範囲が著しく制限されていることを示す。
関連論文リスト
- BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。
KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。
我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文 参考訳(メタデータ) (2024-11-12T00:52:52Z) - Multilingual Diversity Improves Vision-Language Representations [97.16233528393356]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Geographic and Geopolitical Biases of Language Models [43.62238334380897]
プレトレーニング言語モデル(PLM)における地理的バイアス(と知識)の研究手法を提案する。
以上の結果から, PLMの表現は, 国・国・国間の関連性の観点から, 物理的世界と驚くほどよく一致していることが示唆された。
最後に, 地理的近接性の概念を呈するにもかかわらず, PLMがいかに大きいかを説明する。
論文 参考訳(メタデータ) (2022-12-20T16:32:54Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-03T20:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。