論文の概要: Explaining Visual Biases as Words by Generating Captions
- arxiv url: http://arxiv.org/abs/2301.11104v1
- Date: Thu, 26 Jan 2023 13:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 13:44:38.555206
- Title: Explaining Visual Biases as Words by Generating Captions
- Title(参考訳): 字幕生成による視覚バイアスの表現
- Authors: Younghyun Kim, Sangwoo Mo, Minkyu Kim, Kyungmin Lee, Jaeho Lee, Jinwoo
Shin
- Abstract要約: 視覚バイアスを単語として記述するためのバイアス・トゥ・テキスト(B2T)を提案する。
B2Tは、事前訓練されたキャプションモデルを用いて誤予測画像のキャプションを生成する。
提案手法は,性別や背景バイアスを再現できることを示す。
- 参考スコア(独自算出の注目度): 72.02386627482056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to diagnose the potential biases in image classifiers. To this end,
prior works manually labeled biased attributes or visualized biased features,
which need high annotation costs or are often ambiguous to interpret. Instead,
we leverage two types (generative and discriminative) of pre-trained
vision-language models to describe the visual bias as a word. Specifically, we
propose bias-to-text (B2T), which generates captions of the mispredicted images
using a pre-trained captioning model to extract the common keywords that may
describe visual biases. Then, we categorize the bias type as spurious
correlation or majority bias by checking if it is specific or agnostic to the
class, based on the similarity of class-wise mispredicted images and the
keyword upon a pre-trained vision-language joint embedding space, e.g., CLIP.
We demonstrate that the proposed simple and intuitive scheme can recover
well-known gender and background biases, and discover novel ones in real-world
datasets. Moreover, we utilize B2T to compare the classifiers using different
architectures or training methods. Finally, we show that one can obtain
debiased classifiers using the B2T bias keywords and CLIP, in both zero-shot
and full-shot manners, without using any human annotation on the bias.
- Abstract(参考訳): 画像分類器の潜在的なバイアスを診断することを目的としている。
この目的のために、プリエントワークは手動でバイアス付き属性をラベル付けしたり、高いアノテーションコストを必要とするか、解釈にあいまいなバイアス付き特徴を視覚化したりする。
代わりに、前訓練された視覚言語モデルの2つのタイプ(生成的および判別的)を活用して、視覚バイアスを単語として記述する。
具体的には,事前学習したキャプションモデルを用いて誤予測画像のキャプションを生成するバイアス・トゥ・テキスト(B2T)を提案する。
次に、クラス毎の誤った予測画像とキーワードの類似性に基づいて、クラスに固有のか非依存であるかをチェックすることにより、バイアスタイプを散発的な相関または多数派バイアスとして分類する。
提案手法は,既知の性別や背景バイアスを再現し,実世界のデータセットから新しい手法を発見できることを示す。
さらに,B2Tを用いて異なるアーキテクチャやトレーニング手法を用いて分類器を比較する。
最後に,b2tバイアスキーワードとクリップをゼロショット法とフルショット法の両方で用い,バイアスに人間のアノテーションを使わずにデバイアス分類できることを示す。
関連論文リスト
- TIBET: Identifying and Evaluating Biases in Text-to-Image Generative
Models [23.18396000415575]
本稿では,任意のテキスト・ツー・イメージ(TTI)モデルと任意のプロンプトに対して,幅広いバイアススペクトルを研究・定量化するための一般的なアプローチを提案する。
我々の手法は、与えられたプロンプトに関連する可能性のある潜在的なバイアスを自動的に識別し、それらのバイアスを測定する。
本研究では,本手法が意味論的概念を通じて複雑な多次元バイアスを説明できることを示す。
論文 参考訳(メタデータ) (2023-12-03T02:31:37Z) - General Phrase Debiaser: Debiasing Masked Language Models at a
Multi-Token Level [12.014504621547765]
我々はtextbf General Phrase Debiaser と呼ばれる自動マルチトークンデバイアスパイプラインを提案する。
具体的には,ウィキペディアページからステレオタイプ句を生成するテキストフレーズフィルタのステージから構成する。
後者はモデルのバイアスをトリガーするプロンプトを検索し、デバイアスに使用する。
論文 参考訳(メタデータ) (2023-11-23T10:23:51Z) - Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。
本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文 参考訳(メタデータ) (2023-06-03T21:39:07Z) - Revisiting the Role of Language Priors in Vision-Language Models [96.59023532372842]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic
Contrast Sets [52.77024349608834]
視覚言語モデルは、インターネットから未計算の画像テキストペアの事前トレーニング中に学んだ社会的バイアスを永続し、増幅することができる。
COCO Captionsは、背景コンテキストとその場にいる人々の性別間のバイアスを評価するために最も一般的に使用されるデータセットである。
本研究では,COCOデータセットを男女バランスの取れたコントラストセットで拡張する新しいデータセットデバイアスパイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:59:18Z) - Mitigating Test-Time Bias for Fair Image Retrieval [18.349154934096784]
我々は、中立なテキストクエリにより、公平で偏りのない画像検索結果を生成するという課題に対処する。
本稿では,事前学習した視覚言語モデルから出力を後処理する簡単な手法であるポストホックバイアス緩和手法を提案する。
提案手法は,テキストによる画像検索結果において,既存の様々なバイアス軽減手法と比較して,最も低いバイアスを実現する。
論文 参考訳(メタデータ) (2023-05-23T21:31:16Z) - Discriminative Diffusion Models as Few-shot Vision and Language Learners [91.38524112662448]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。