論文の概要: You are what you eat? Feeding foundation models a regionally diverse food dataset of World Wide Dishes
- arxiv url: http://arxiv.org/abs/2406.09496v2
- Date: Tue, 01 Oct 2024 23:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:33.239790
- Title: You are what you eat? Feeding foundation models a regionally diverse food dataset of World Wide Dishes
- Title(参考訳): 食べているのはあなた? 食財団は、World Wide Dishesの地域的に多様な食品データセットをモデル化する
- Authors: Jabez Magomere, Shu Ishida, Tejumade Afonja, Aya Salama, Daniel Kochin, Foutse Yuehgoh, Imane Hamzaoui, Raesetje Sefala, Aisha Alaagib, Elizaveta Semenova, Lauren Crais, Siobhan Mackenzie Hall,
- Abstract要約: 765の料理からなる混合テキストと画像データセットであるWorld Wide Dishesを131の地方言語で収集した。
本稿では,言語モデルやテキスト・ツー・イメージ生成モデルといった基礎モデルにおいて,機能と表現バイアスを運用する新たな方法を示す。
これらのモデルは、一般的に、異なる地域固有の料理の質の高いテキストや画像の出力を生成しない。
- 参考スコア(独自算出の注目度): 3.1402605498916514
- License:
- Abstract: Foundation models are increasingly ubiquitous in our daily lives, used in everyday tasks such as text-image searches, interactions with chatbots, and content generation. As use increases, so does concern over the disparities in performance and fairness of these models for different people in different parts of the world. To assess these growing regional disparities, we present World Wide Dishes, a mixed text and image dataset consisting of 765 dishes, with dish names collected in 131 local languages. World Wide Dishes has been collected purely through human contribution and decentralised means, by creating a website widely distributed through social networks. Using the dataset, we demonstrate a novel means of operationalising capability and representational biases in foundation models such as language models and text-to-image generative models. We enrich these studies with a pilot community review to understand, from a first-person perspective, how these models generate images for people in five African countries and the United States. We find that these models generally do not produce quality text and image outputs of dishes specific to different regions. This is true even for the US, which is typically considered to be more well-resourced in training data - though the generation of US dishes does outperform that of the investigated African countries. The models demonstrate a propensity to produce outputs that are inaccurate as well as culturally misrepresentative, flattening, and insensitive. These failures in capability and representational bias have the potential to further reinforce stereotypes and disproportionately contribute to erasure based on region. The dataset and code are available at https://github.com/oxai/world-wide-dishes/.
- Abstract(参考訳): ファウンデーションモデルは、テキスト画像検索、チャットボットとの対話、コンテンツ生成といった日常的なタスクで使われるようになった。
利用が増えるにつれて、世界のさまざまな場所での、これらのモデルのパフォーマンスと公平性の違いにも懸念が持たれます。
これらの地域格差の増大を評価するために,765の料理からなる混合テキストと画像データセットであるWorld Wide Dishesを131の地方言語で収集した。
World Wide Dishesは、ソーシャルネットワークを通じて広く配布されるWebサイトを作ることによって、人間の貢献と分散化を通じて純粋に収集されている。
このデータセットを用いて,言語モデルやテキスト・ツー・イメージ生成モデルといった基礎モデルにおいて,新たな操作能力と表現バイアスを示す。
我々はこれらの研究を、パイロットコミュニティのレビューで豊かにし、5つのアフリカ諸国と米国の人々のために、これらのモデルがどのように画像を生成するかを理解する。
これらのモデルは、一般的に、異なる地域固有の料理の質の高いテキストや画像の出力を生成しない。
米国の食器生産は調査対象のアフリカ諸国よりも優れていますが、訓練データでは通常よりよく供給されていると見なされる米国にとっても、これは事実です。
これらのモデルは、文化的に誤って表現され、平らで、無神経な出力を生産する傾向を示す。
これらの能力障害と表現バイアスは、ステレオタイプをさらに強化し、領域に基づく消去に不均等に寄与する可能性がある。
データセットとコードはhttps://github.com/oxai/world-wide-dishes/で公開されている。
関連論文リスト
- Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。
本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。
FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文 参考訳(メタデータ) (2023-12-06T15:07:12Z) - Leveraging Diffusion Perturbations for Measuring Fairness in Computer
Vision [25.414154497482162]
拡散モデルを利用してそのようなデータセットを作成できることを実証する。
マルチクラスの職業分類タスクにおいて,複数の視覚言語モデルをベンチマークする。
非コーカサスラベルで生成された画像は、コーカサスラベルで生成された画像よりも、職業的誤分類率が高いことが判明した。
論文 参考訳(メタデータ) (2023-11-25T19:40:13Z) - All Should Be Equal in the Eyes of Language Models: Counterfactually
Aware Fair Text Generation [16.016546693767403]
本研究では,多様な階層のモデル理解を動的に比較し,より公平な文を生成する枠組みを提案する。
CAFIEはより公平なテキストを生成し、公平性と言語モデリング能力の最良のバランスを打ちます。
論文 参考訳(メタデータ) (2023-11-09T15:39:40Z) - Computer Vision Datasets and Models Exhibit Cultural and Linguistic
Diversity in Perception [28.716435050743957]
異なる文化的背景を持つ人々が、同じ視覚刺激を視る場合でも、いかに異なる概念を観察するかを考察する。
同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。
私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に注目しています。
論文 参考訳(メタデータ) (2023-10-22T16:51:42Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z) - Analyzing Bias in Diffusion-based Face Generation Models [75.80072686374564]
拡散モデルは、合成データ生成と画像編集アプリケーションでますます人気がある。
本研究では, 性別, 人種, 年齢などの属性に関して, 拡散型顔生成モデルにおけるバイアスの存在について検討する。
本研究は,GAN(Generative Adversarial Network)とGAN(Generative Adversarial Network)をベースとした顔生成モデルにおいて,データセットサイズが属性組成および知覚品質に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-10T18:22:31Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。