論文の概要: Explaining Visual Biases as Words by Generating Captions
- arxiv url: http://arxiv.org/abs/2301.11104v1
- Date: Thu, 26 Jan 2023 13:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 13:44:38.555206
- Title: Explaining Visual Biases as Words by Generating Captions
- Title(参考訳): 字幕生成による視覚バイアスの表現
- Authors: Younghyun Kim, Sangwoo Mo, Minkyu Kim, Kyungmin Lee, Jaeho Lee, Jinwoo
Shin
- Abstract要約: 視覚バイアスを単語として記述するためのバイアス・トゥ・テキスト(B2T)を提案する。
B2Tは、事前訓練されたキャプションモデルを用いて誤予測画像のキャプションを生成する。
提案手法は,性別や背景バイアスを再現できることを示す。
- 参考スコア(独自算出の注目度): 72.02386627482056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to diagnose the potential biases in image classifiers. To this end,
prior works manually labeled biased attributes or visualized biased features,
which need high annotation costs or are often ambiguous to interpret. Instead,
we leverage two types (generative and discriminative) of pre-trained
vision-language models to describe the visual bias as a word. Specifically, we
propose bias-to-text (B2T), which generates captions of the mispredicted images
using a pre-trained captioning model to extract the common keywords that may
describe visual biases. Then, we categorize the bias type as spurious
correlation or majority bias by checking if it is specific or agnostic to the
class, based on the similarity of class-wise mispredicted images and the
keyword upon a pre-trained vision-language joint embedding space, e.g., CLIP.
We demonstrate that the proposed simple and intuitive scheme can recover
well-known gender and background biases, and discover novel ones in real-world
datasets. Moreover, we utilize B2T to compare the classifiers using different
architectures or training methods. Finally, we show that one can obtain
debiased classifiers using the B2T bias keywords and CLIP, in both zero-shot
and full-shot manners, without using any human annotation on the bias.
- Abstract(参考訳): 画像分類器の潜在的なバイアスを診断することを目的としている。
この目的のために、プリエントワークは手動でバイアス付き属性をラベル付けしたり、高いアノテーションコストを必要とするか、解釈にあいまいなバイアス付き特徴を視覚化したりする。
代わりに、前訓練された視覚言語モデルの2つのタイプ(生成的および判別的)を活用して、視覚バイアスを単語として記述する。
具体的には,事前学習したキャプションモデルを用いて誤予測画像のキャプションを生成するバイアス・トゥ・テキスト(B2T)を提案する。
次に、クラス毎の誤った予測画像とキーワードの類似性に基づいて、クラスに固有のか非依存であるかをチェックすることにより、バイアスタイプを散発的な相関または多数派バイアスとして分類する。
提案手法は,既知の性別や背景バイアスを再現し,実世界のデータセットから新しい手法を発見できることを示す。
さらに,B2Tを用いて異なるアーキテクチャやトレーニング手法を用いて分類器を比較する。
最後に,b2tバイアスキーワードとクリップをゼロショット法とフルショット法の両方で用い,バイアスに人間のアノテーションを使わずにデバイアス分類できることを示す。
関連論文リスト
- Identifying Implicit Social Biases in Vision-Language Models [34.53206726136747]
我々は、視覚言語モデルに存在する社会的バイアスを体系的に分析する。
CLIPは有害な単語と特定の人口集団の間に望ましくない関連性を示すことが多い。
本研究は,視覚言語モデルにおけるバイアスの評価と対処の重要性を強調した。
論文 参考訳(メタデータ) (2024-11-01T19:41:28Z) - Eliminating the Language Bias for Visual Question Answering with fine-grained Causal Intervention [9.859335795616028]
よりきめ細かい視点から言語バイアスを排除するために,CIBiという新たな因果介入訓練手法を提案する。
我々は、文脈バイアスを排除し、マルチモーダル表現を改善するために因果介入とコントラスト学習を用いる。
我々は,キーワードバイアスを抽出・排除するために,対実生成に基づく質問専用ブランチを新たに設計する。
論文 参考訳(メタデータ) (2024-10-14T06:09:16Z) - GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models [75.04426753720553]
開集合におけるバイアスを特定し,定量化し,説明するための枠組みを提案する。
このパイプラインはLarge Language Model (LLM)を活用して、一連のキャプションから始まるバイアスを提案する。
このフレームワークには、OpenBiasとGradBiasの2つのバリエーションがあります。
論文 参考訳(メタデータ) (2024-08-29T16:51:07Z) - OpenBias: Open-set Bias Detection in Text-to-Image Generative Models [108.2219657433884]
OpenBiasを提示するテキストから画像生成モデルにおけるオープンセットバイアス検出の課題に対処する。
OpenBiasは、事前コンパイルされた集合にアクセスすることなく、バイアスの深刻度を不可知的に識別し、定量化する。
本研究では, 安定拡散1.5, 2, XLの挙動について検討した。
論文 参考訳(メタデータ) (2024-04-11T17:59:56Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic
Contrast Sets [52.77024349608834]
視覚言語モデルは、インターネットから未計算の画像テキストペアの事前トレーニング中に学んだ社会的バイアスを永続し、増幅することができる。
COCO Captionsは、背景コンテキストとその場にいる人々の性別間のバイアスを評価するために最も一般的に使用されるデータセットである。
本研究では,COCOデータセットを男女バランスの取れたコントラストセットで拡張する新しいデータセットデバイアスパイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:59:18Z) - Mitigating Test-Time Bias for Fair Image Retrieval [18.349154934096784]
我々は、中立なテキストクエリにより、公平で偏りのない画像検索結果を生成するという課題に対処する。
本稿では,事前学習した視覚言語モデルから出力を後処理する簡単な手法であるポストホックバイアス緩和手法を提案する。
提案手法は,テキストによる画像検索結果において,既存の様々なバイアス軽減手法と比較して,最も低いバイアスを実現する。
論文 参考訳(メタデータ) (2023-05-23T21:31:16Z) - To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo [53.370023611101175]
本稿では,Cuiらによって提案されたPerson-centric Visual Groundingタスクに対して,偏りのあるデータセットを提案する。
画像とキャプションが与えられた場合、PCVGはキャプションに記載されている人物の名前と、画像内の人物を指し示すバウンディングボックスをペアリングする必要がある。
オリジナルのWho's Waldoデータセットには、メソッドによって簡単に解ける多数のバイアスのあるサンプルが含まれていることが分かりました。
論文 参考訳(メタデータ) (2022-03-30T21:35:53Z) - Identification of Biased Terms in News Articles by Comparison of
Outlet-specific Word Embeddings [9.379650501033465]
我々は2つの単語埋め込みモデルを訓練し、1つは左翼のテキストで、もう1つは右翼のニュースメディアで訓練する。
我々の仮説は、単語の埋め込み空間における表現は、偏りのある単語よりも非偏りのある単語に類似している、というものである。
本稿では,単語の埋め込みによって測定されたバイアス語の文脈を詳細に考察する。
論文 参考訳(メタデータ) (2021-12-14T13:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。