論文の概要: Understanding and Evaluating Racial Biases in Image Captioning
- arxiv url: http://arxiv.org/abs/2106.08503v1
- Date: Wed, 16 Jun 2021 01:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 08:01:40.079658
- Title: Understanding and Evaluating Racial Biases in Image Captioning
- Title(参考訳): 画像キャプションにおけるRacial Biaseの理解と評価
- Authors: Dora Zhao and Angelina Wang and Olga Russakovsky
- Abstract要約: 画像キャプション内のバイアス伝搬経路について検討し,特にCOCOデータセットに着目した。
より軽い人と暗い肌の人の画像のキャプション性能,感情,言葉選択の差異を示す。
- 参考スコア(独自算出の注目度): 18.184279793253634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning is an important task for benchmarking visual reasoning and
for enabling accessibility for people with vision impairments. However, as in
many machine learning settings, social biases can influence image captioning in
undesirable ways. In this work, we study bias propagation pathways within image
captioning, focusing specifically on the COCO dataset. Prior work has analyzed
gender bias in captions using automatically-derived gender labels; here we
examine racial and intersectional biases using manual annotations. Our first
contribution is in annotating the perceived gender and skin color of 28,315 of
the depicted people after obtaining IRB approval. Using these annotations, we
compare racial biases present in both manual and automatically-generated image
captions. We demonstrate differences in caption performance, sentiment, and
word choice between images of lighter versus darker-skinned people. Further, we
find the magnitude of these differences to be greater in modern captioning
systems compared to older ones, thus leading to concerns that without proper
consideration and mitigation these differences will only become increasingly
prevalent. Code and data is available at
https://princetonvisualai.github.io/imagecaptioning-bias .
- Abstract(参考訳): 画像キャプションは視覚的推論のベンチマークや視覚障害者のアクセシビリティ向上のための重要なタスクである。
しかし、多くの機械学習の設定と同様に、社会的バイアスは望ましくない方法で画像キャプションに影響を与える可能性がある。
本研究では,COCOデータセットに着目し,画像キャプション内のバイアス伝搬経路について検討する。
先行研究は、自動的な性別ラベルを用いた字幕の性別バイアスを分析し、ここでは、手作業による人種バイアスと交叉バイアスについて検討する。
最初の貢献は、IRB承認後、28,315人の性別と肌の色をアノテートすることである。
これらのアノテーションを用いて、手動と自動生成された画像キャプションの両方に存在する人種バイアスを比較する。
より軽い人と暗い肌の人の画像のキャプション性能,感情,言葉選択の差異を示す。
さらに, 現代のキャプションシステムでは, 従来のキャプションシステムに比べて差の大きさが大きいことが分かり, 適切な考慮と緩和がなければ, これらの差はますます広まっていくと懸念される。
コードとデータはhttps://princetonvisualai.github.io/imagecaptioning-biasで入手できる。
関連論文リスト
- From Descriptive Richness to Bias: Unveiling the Dark Side of Generative Image Caption Enrichment [26.211648382676856]
大型言語モデル(LLM)は視覚テキストをキャプションする視覚言語モデルの能力を高めた。
豊かな字幕は性差と幻覚の増大に悩まされている。
本研究は、記述的キャプションをより記述的とする傾向に対して注意を喚起するものである。
論文 参考訳(メタデータ) (2024-06-20T01:03:13Z) - Targeted Image Data Augmentation Increases Basic Skills Captioning
Robustness [0.932065750652415]
TIDA(Targeted Image-editing Data Augmentation)は、モデルの人間的な能力向上を目的としたデータ拡張手法である。
画像キャプションの指標において,性別,色,数量に関連するTIDA強化データセットが,より優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-27T20:12:41Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic
Contrast Sets [52.77024349608834]
視覚言語モデルは、インターネットから未計算の画像テキストペアの事前トレーニング中に学んだ社会的バイアスを永続し、増幅することができる。
COCO Captionsは、背景コンテキストとその場にいる人々の性別間のバイアスを評価するために最も一般的に使用されるデータセットである。
本研究では,COCOデータセットを男女バランスの取れたコントラストセットで拡張する新しいデータセットデバイアスパイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:59:18Z) - ImageCaptioner$^2$: Image Captioner for Image Captioning Bias
Amplification Assessment [30.71835197717301]
画像キャプションに$ImageCaptioner2$と呼ばれる新しいバイアス評価指標を導入する。
モデルやデータの絶対バイアスを測定する代わりに、$ImageCaptioner2$はモデルによって導入されたバイアスにもっと注意を払う。
さらに、生成したキャプションのバイアスをプロンプトベースの画像キャプションとして測定するための定式化を設計する。
論文 参考訳(メタデータ) (2023-04-10T21:40:46Z) - Cross-Domain Image Captioning with Discriminative Finetuning [20.585138136033905]
自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。
画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
論文 参考訳(メタデータ) (2023-04-04T09:33:16Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Discovering and Mitigating Visual Biases through Keyword Explanation [66.71792624377069]
視覚バイアスをキーワードとして解釈するBias-to-Text(B2T)フレームワークを提案する。
B2Tは、CelebAの性別バイアス、ウォーターバードの背景バイアス、ImageNet-R/Cの分布シフトなど、既知のバイアスを特定することができる。
B2Tは、Dollar StreetやImageNetのような大きなデータセットで、新しいバイアスを明らかにする。
論文 参考訳(メタデータ) (2023-01-26T13:58:46Z) - On Distinctive Image Captioning via Comparing and Reweighting [52.3731631461383]
本稿では,類似画像の集合との比較と再重み付けにより,画像キャプションの特異性を向上させることを目的とする。
MSCOCOデータセットの各画像の人間のアノテーションは、特徴性に基づいて等価ではないことが明らかとなった。
対照的に、以前の研究は通常、トレーニング中に人間のアノテーションを平等に扱う。
論文 参考訳(メタデータ) (2022-04-08T08:59:23Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。