論文の概要: Uncurated Image-Text Datasets: Shedding Light on Demographic Bias
- arxiv url: http://arxiv.org/abs/2304.02828v1
- Date: Thu, 6 Apr 2023 02:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 15:33:28.480299
- Title: Uncurated Image-Text Datasets: Shedding Light on Demographic Bias
- Title(参考訳): uncurated image-text datasets: 人口統計バイアスに光を当てる
- Authors: Noa Garcia, Yusuke Hirota, Yankun Wu, Yuta Nakashima
- Abstract要約: MSCOCOのような小さいが手動で注釈付けされたデータセットでさえ、社会的バイアスの影響を受けている。
最初のコントリビューションは、ビジョンと言語モデルのトレーニングに広く使用されている、Google Conceptual Captionsデータセットの一部に注釈を付けることです。
第2の貢献は、アノテーションの包括的な分析を行うことであり、どのように異なる人口集団が表現されるかに焦点を当てている。
第3の貢献は3つの一般的な視覚・言語タスクを評価することであり、社会的バイアスはそれらすべてにおいて永続的な問題であることを示している。
- 参考スコア(独自算出の注目度): 21.421722941901123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing tendency to collect large and uncurated datasets to train
vision-and-language models has raised concerns about fair representations. It
is known that even small but manually annotated datasets, such as MSCOCO, are
affected by societal bias. This problem, far from being solved, may be getting
worse with data crawled from the Internet without much control. In addition,
the lack of tools to analyze societal bias in big collections of images makes
addressing the problem extremely challenging. Our first contribution is to
annotate part of the Google Conceptual Captions dataset, widely used for
training vision-and-language models, with four demographic and two contextual
attributes. Our second contribution is to conduct a comprehensive analysis of
the annotations, focusing on how different demographic groups are represented.
Our last contribution lies in evaluating three prevailing vision-and-language
tasks: image captioning, text-image CLIP embeddings, and text-to-image
generation, showing that societal bias is a persistent problem in all of them.
- Abstract(参考訳): 視覚と言語のモデルを訓練するために、大規模で未計算のデータセットを集める傾向が高まり、公正な表現に対する懸念が高まっている。
MSCOCOのような小さいが手動で注釈付けされたデータセットでさえ、社会的バイアスの影響を受けていることが知られている。
この問題は解決されるには程遠いが、インターネットからあまりコントロールされずにデータをクロールすることで悪化する可能性がある。
さらに、画像の大きな集合における社会バイアスを分析するツールの欠如は、この問題を非常に困難にしています。
私たちの最初の貢献は、googleのコンセプトキャプションデータセットの一部に注釈を付けることで、視覚と言語モデルのトレーニングに広く使用されています。
第2の貢献は、どのように異なる人口集団が表現されるかに焦点を当てた、アノテーションの包括的な分析を行うことです。
私たちの最後の貢献は、画像キャプション、テキスト画像クリップ埋め込み、テキストから画像への生成という、広く普及している3つの視覚言語タスクを評価することです。
関連論文リスト
- Identifying Implicit Social Biases in Vision-Language Models [34.53206726136747]
我々は、視覚言語モデルに存在する社会的バイアスを体系的に分析する。
CLIPは有害な単語と特定の人口集団の間に望ましくない関連性を示すことが多い。
本研究は,視覚言語モデルにおけるバイアスの評価と対処の重要性を強調した。
論文 参考訳(メタデータ) (2024-11-01T19:41:28Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Probing Intersectional Biases in Vision-Language Models with
Counterfactual Examples [5.870913541790421]
我々は、テキスト・ツー・イメージ拡散モデルを用いて、大規模に侵入する社会的バイアスを探索する対実例を作成する。
提案手法では,安定拡散とクロスアテンション制御を用いて,対実的画像とテキストのペアのセットを生成する。
我々は、最先端のVLMに存在する交叉社会的バイアスを明らかにするために、生成されたデータセットを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2023-10-04T17:25:10Z) - Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文 参考訳(メタデータ) (2023-03-30T05:29:13Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Assessing Demographic Bias Transfer from Dataset to Model: A Case Study
in Facial Expression Recognition [1.5340540198612824]
2つのメトリクスはデータセットの表現バイアスとステレオタイプバイアスに焦点をあて、もう1つはトレーニングされたモデルの残差バイアスに焦点を当てている。
本稿では、一般的なAffectnetデータセットに基づくFER問題に適用することで、メトリクスの有用性を示す。
論文 参考訳(メタデータ) (2022-05-20T09:40:42Z) - A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models
with Adversarial Learning [55.96577490779591]
視覚言語モデルは社会的バイアスやステレオタイプを符号化することができる。
これらのマルチモーダル害の測定と緩和には課題がある。
バイアス尺度を調査し,画像テキスト表現にランキング指標を適用した。
論文 参考訳(メタデータ) (2022-03-22T17:59:04Z) - Multimodal datasets: misogyny, pornography, and malignant stereotypes [2.8682942808330703]
最近リリースされたLAION-400Mデータセットは、Common-Crawlデータセットから解析された画像-Alt-textペアのCLIPフィルタリングデータセットである。
このデータセットには、レイプ、ポルノグラフィー、悪性のステレオタイプ、人種差別的および民族的スラー、その他の非常に問題のあるコンテンツが含まれています。
論文 参考訳(メタデータ) (2021-10-05T11:47:27Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。