論文の概要: Flickr Africa: Examining Geo-Diversity in Large-Scale, Human-Centric
Visual Data
- arxiv url: http://arxiv.org/abs/2308.08656v1
- Date: Wed, 16 Aug 2023 20:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 18:44:25.179907
- Title: Flickr Africa: Examining Geo-Diversity in Large-Scale, Human-Centric
Visual Data
- Title(参考訳): Flickr Africa:大規模で人間中心のビジュアルデータでジオ多様性を調べる
- Authors: Keziah Naggita, Julienne LaChance, Alice Xiang
- Abstract要約: アフリカの各国に関連付けられた地理タグ付きFlickr画像を用いて、大規模な人中心画像の地理的多様性を解析した。
欧州の人口適合国と比較して,利用可能なデータの量と内容について報告する。
我々は、アフリカからのかなりの数の画像が、非地元の写真家によって撮影されている証拠として、他者現象の発見を提示する。
- 参考スコア(独自算出の注目度): 3.4022338837261525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biases in large-scale image datasets are known to influence the performance
of computer vision models as a function of geographic context. To investigate
the limitations of standard Internet data collection methods in low- and
middle-income countries, we analyze human-centric image geo-diversity on a
massive scale using geotagged Flickr images associated with each nation in
Africa. We report the quantity and content of available data with comparisons
to population-matched nations in Europe as well as the distribution of data
according to fine-grained intra-national wealth estimates. Temporal analyses
are performed at two-year intervals to expose emerging data trends.
Furthermore, we present findings for an ``othering'' phenomenon as evidenced by
a substantial number of images from Africa being taken by non-local
photographers. The results of our study suggest that further work is required
to capture image data representative of African people and their environments
and, ultimately, to improve the applicability of computer vision models in a
global context.
- Abstract(参考訳): 大規模画像データセットのバイアスは、地理的文脈の関数としてのコンピュータビジョンモデルの性能に影響を与えることが知られている。
低所得国と中所得国における標準インターネットデータ収集手法の限界を調査するために,アフリカの各国に関連付けられた地理タグ付きflickr画像を用いて,人間中心の地理多様性を大規模に解析した。
我々は、欧州の人口マッチング国と比較したデータ量と内容、および国内富裕層推計によるデータ分布について報告する。
時間的分析は2年間隔で行われ、新しいデータトレンドを暴露する。
さらに,アフリカからの大量の画像が非地元写真家によって撮影されていることを裏付ける「他者」現象の発見を示す。
本研究の結果から,アフリカ人とその環境を代表する画像データを取得し,最終的にはグローバルコンテキストにおけるコンピュータビジョンモデルの適用性を向上させるために,さらなる作業が必要であることが示唆された。
関連論文リスト
- Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文 参考訳(メタデータ) (2024-07-08T17:50:00Z) - Decomposed evaluations of geographic disparities in text-to-image models [22.491466809896867]
本稿では,画像生成における特徴の分割指標(Decomposed Indicators of Disparities in Image Generation, Decomposed-DIG)を提案する。
Decomposed-DIGを用いて、広く使われている潜伏拡散モデルを評価し、生成した画像が背景よりも写実性の良い物体を描いていることを確認する。
私たちはDecomposed-DIGを使って、アフリカのステレオタイプな背景生成、アフリカの近代的な車両の生成に苦労し、屋外設定にいくつかのオブジェクトを非現実的に配置するなど、相違点の具体例を特定します。
論文 参考訳(メタデータ) (2024-06-17T18:04:23Z) - Towards Geographic Inclusion in the Evaluation of Text-to-Image Models [25.780536950323683]
我々は,アフリカ,ヨーロッパ,東南アジアにおけるアノテータの地理的表現,視覚的魅力,実画像および生成画像の一貫性に対する認識の程度について検討した。
例えば、異なる場所のアノテータは、地理的に代表的であると見なされる領域の誇張されたステレオタイプ的な描写について、しばしば意見が一致しない。
自動評価と人的評価を改善するためのステップを推奨する。
論文 参考訳(メタデータ) (2024-05-07T16:23:06Z) - Regional biases in image geolocation estimation: a case study with the SenseCity Africa dataset [0.0]
我々は,アフリカ大陸(SCA100)から得られた画像のクラウドソースデータセットに対して,最先端の画像位置推定モデル(ISNs)を適用した。
欧米の高所得国では,ISNsモデルでは画像位置を過大に予測する傾向がみられた。
この結果から,IM2GPS3kを画像位置情報推定のトレーニングセットおよびベンチマークとして用いると,アフリカにおける潜在的な応用を見落としてしまうことが示唆された。
論文 参考訳(メタデータ) (2024-04-03T08:27:24Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Granularity at Scale: Estimating Neighborhood Socioeconomic Indicators
from High-Resolution Orthographic Imagery and Hybrid Learning [1.8369448205408005]
オーバーヘッド画像は、コミュニティ情報が不足しているギャップを埋めるのに役立つ。
機械学習とコンピュータビジョンの最近の進歩により、画像データのパターンから素早く特徴を抽出し、検出することが可能になった。
本研究では, 人口密度, 中央値世帯所得, 教育達成率の2つのアプローチ, 教師付き畳み込みニューラルネットワークと半教師付きクラスタリングについて検討する。
論文 参考訳(メタデータ) (2023-09-28T19:30:26Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Studying Bias in GANs through the Lens of Race [91.95264864405493]
本研究では, 画像生成モデルの性能と評価が, 学習データセットの人種構成にどのように影響するかを検討する。
その結果, 生成した画像の人種構成は, トレーニングデータの保存に成功していることがわかった。
しかし、推論中に高品質な画像を生成する手法であるトランケーションは、データの人種的不均衡を悪化させる。
論文 参考訳(メタデータ) (2022-09-06T22:25:56Z) - Predicting Livelihood Indicators from Community-Generated Street-Level
Imagery [70.5081240396352]
本稿では,クラウドソースによるストリートレベルの画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能なアプローチを提案する。
全国的に代表される世帯調査で収集した地上データと比較することにより,貧困,人口,健康の指標を正確に予測する上でのアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T18:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。