論文の概要: You are what you eat? Feeding foundation models a regionally diverse food dataset of World Wide Dishes
- arxiv url: http://arxiv.org/abs/2406.09496v2
- Date: Tue, 01 Oct 2024 23:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:33.239790
- Title: You are what you eat? Feeding foundation models a regionally diverse food dataset of World Wide Dishes
- Title(参考訳): 食べているのはあなた? 食財団は、World Wide Dishesの地域的に多様な食品データセットをモデル化する
- Authors: Jabez Magomere, Shu Ishida, Tejumade Afonja, Aya Salama, Daniel Kochin, Foutse Yuehgoh, Imane Hamzaoui, Raesetje Sefala, Aisha Alaagib, Elizaveta Semenova, Lauren Crais, Siobhan Mackenzie Hall,
- Abstract要約: 765の料理からなる混合テキストと画像データセットであるWorld Wide Dishesを131の地方言語で収集した。
本稿では,言語モデルやテキスト・ツー・イメージ生成モデルといった基礎モデルにおいて,機能と表現バイアスを運用する新たな方法を示す。
これらのモデルは、一般的に、異なる地域固有の料理の質の高いテキストや画像の出力を生成しない。
- 参考スコア(独自算出の注目度): 3.1402605498916514
- License:
- Abstract: Foundation models are increasingly ubiquitous in our daily lives, used in everyday tasks such as text-image searches, interactions with chatbots, and content generation. As use increases, so does concern over the disparities in performance and fairness of these models for different people in different parts of the world. To assess these growing regional disparities, we present World Wide Dishes, a mixed text and image dataset consisting of 765 dishes, with dish names collected in 131 local languages. World Wide Dishes has been collected purely through human contribution and decentralised means, by creating a website widely distributed through social networks. Using the dataset, we demonstrate a novel means of operationalising capability and representational biases in foundation models such as language models and text-to-image generative models. We enrich these studies with a pilot community review to understand, from a first-person perspective, how these models generate images for people in five African countries and the United States. We find that these models generally do not produce quality text and image outputs of dishes specific to different regions. This is true even for the US, which is typically considered to be more well-resourced in training data - though the generation of US dishes does outperform that of the investigated African countries. The models demonstrate a propensity to produce outputs that are inaccurate as well as culturally misrepresentative, flattening, and insensitive. These failures in capability and representational bias have the potential to further reinforce stereotypes and disproportionately contribute to erasure based on region. The dataset and code are available at https://github.com/oxai/world-wide-dishes/.
- Abstract(参考訳): ファウンデーションモデルは、テキスト画像検索、チャットボットとの対話、コンテンツ生成といった日常的なタスクで使われるようになった。
利用が増えるにつれて、世界のさまざまな場所での、これらのモデルのパフォーマンスと公平性の違いにも懸念が持たれます。
これらの地域格差の増大を評価するために,765の料理からなる混合テキストと画像データセットであるWorld Wide Dishesを131の地方言語で収集した。
World Wide Dishesは、ソーシャルネットワークを通じて広く配布されるWebサイトを作ることによって、人間の貢献と分散化を通じて純粋に収集されている。
このデータセットを用いて,言語モデルやテキスト・ツー・イメージ生成モデルといった基礎モデルにおいて,新たな操作能力と表現バイアスを示す。
我々はこれらの研究を、パイロットコミュニティのレビューで豊かにし、5つのアフリカ諸国と米国の人々のために、これらのモデルがどのように画像を生成するかを理解する。
これらのモデルは、一般的に、異なる地域固有の料理の質の高いテキストや画像の出力を生成しない。
米国の食器生産は調査対象のアフリカ諸国よりも優れていますが、訓練データでは通常よりよく供給されていると見なされる米国にとっても、これは事実です。
これらのモデルは、文化的に誤って表現され、平らで、無神経な出力を生産する傾向を示す。
これらの能力障害と表現バイアスは、ステレオタイプをさらに強化し、領域に基づく消去に不均等に寄与する可能性がある。
データセットとコードはhttps://github.com/oxai/world-wide-dishes/で公開されている。
関連論文リスト
- Who Does the Giant Number Pile Like Best: Analyzing Fairness in Hiring Contexts [5.111540255111445]
レースベースの違いは生成したサマリーの約10%に現れ、ジェンダーベースの違いは1%に過ぎなかった。
検索モデルは非デデマグラフィー的変化に匹敵する感度を示し、公平性問題は一般的な脆性問題に起因する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-01-08T07:28:10Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - Diverse Perspectives, Divergent Models: Cross-Cultural Evaluation of Depression Detection on Twitter [4.462334751640166]
我々は、異文化のTwitterデータに基づくAIモデルを構築するためのベンチマークデータセットの一般化を評価する。
以上の結果から,抑うつ検出モデルが世界規模で一般化しないことが示唆された。
事前訓練された言語モデルは、ロジスティック回帰と比較して最高の一般化を達成するが、落ち込んだユーザーと非西洋人ユーザーには依然として大きな差がある。
論文 参考訳(メタデータ) (2024-04-01T03:59:12Z) - Challenges in Annotating Datasets to Quantify Bias in Under-represented
Society [7.9342597513806865]
ベンチマークバイアスデータセットは、二項性分類と倫理的・人種的考察のために開発された。
その結果, ニュージーランド (NZ) の人口を対象に, 偏見を定量化するための注釈付きデータセットが欠如していることから, ニュージーランド (NZ) 人口のベンチマークデータセットを作成した。
本研究は、手動のアノテーションプロセスの概要、遭遇した課題の概要、学習した教訓、今後の研究への提言について述べる。
論文 参考訳(メタデータ) (2023-09-11T22:24:39Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Assessing Demographic Bias Transfer from Dataset to Model: A Case Study
in Facial Expression Recognition [1.5340540198612824]
2つのメトリクスはデータセットの表現バイアスとステレオタイプバイアスに焦点をあて、もう1つはトレーニングされたモデルの残差バイアスに焦点を当てている。
本稿では、一般的なAffectnetデータセットに基づくFER問題に適用することで、メトリクスの有用性を示す。
論文 参考訳(メタデータ) (2022-05-20T09:40:42Z) - Improving QA Generalization by Concurrent Modeling of Multiple Biases [61.597362592536896]
既存のNLPデータセットには、モデルが容易に活用できる様々なバイアスが含まれており、対応する評価セット上で高いパフォーマンスを達成することができる。
本稿では、トレーニングデータにおける複数のバイアスの同時モデリングにより、ドメイン内およびドメイン外両方のデータセットのパフォーマンスを改善するための一般的なフレームワークを提案する。
我々は,様々な領域の学習データと異なる強度の複数のバイアスを持つ抽出的質問応答の枠組みを広く評価した。
論文 参考訳(メタデータ) (2020-10-07T11:18:49Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。