Fugu-MT 論文翻訳(概要): Explaining Visual Biases as Words by Generating Captions

論文の概要: Explaining Visual Biases as Words by Generating Captions

arxiv url: http://arxiv.org/abs/2301.11104v1
Date: Thu, 26 Jan 2023 13:58:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-27 13:44:38.555206
Title: Explaining Visual Biases as Words by Generating Captions
Title（参考訳）: 字幕生成による視覚バイアスの表現
Authors: Younghyun Kim, Sangwoo Mo, Minkyu Kim, Kyungmin Lee, Jaeho Lee, Jinwoo Shin
Abstract要約: 視覚バイアスを単語として記述するためのバイアス・トゥ・テキスト(B2T)を提案する。 B2Tは、事前訓練されたキャプションモデルを用いて誤予測画像のキャプションを生成する。提案手法は,性別や背景バイアスを再現できることを示す。
参考スコア（独自算出の注目度）: 72.02386627482056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We aim to diagnose the potential biases in image classifiers. To this end, prior works manually labeled biased attributes or visualized biased features, which need high annotation costs or are often ambiguous to interpret. Instead, we leverage two types (generative and discriminative) of pre-trained vision-language models to describe the visual bias as a word. Specifically, we propose bias-to-text (B2T), which generates captions of the mispredicted images using a pre-trained captioning model to extract the common keywords that may describe visual biases. Then, we categorize the bias type as spurious correlation or majority bias by checking if it is specific or agnostic to the class, based on the similarity of class-wise mispredicted images and the keyword upon a pre-trained vision-language joint embedding space, e.g., CLIP. We demonstrate that the proposed simple and intuitive scheme can recover well-known gender and background biases, and discover novel ones in real-world datasets. Moreover, we utilize B2T to compare the classifiers using different architectures or training methods. Finally, we show that one can obtain debiased classifiers using the B2T bias keywords and CLIP, in both zero-shot and full-shot manners, without using any human annotation on the bias.
Abstract（参考訳）: 画像分類器の潜在的なバイアスを診断することを目的としている。この目的のために、プリエントワークは手動でバイアス付き属性をラベル付けしたり、高いアノテーションコストを必要とするか、解釈にあいまいなバイアス付き特徴を視覚化したりする。代わりに、前訓練された視覚言語モデルの2つのタイプ(生成的および判別的)を活用して、視覚バイアスを単語として記述する。具体的には,事前学習したキャプションモデルを用いて誤予測画像のキャプションを生成するバイアス・トゥ・テキスト(B2T)を提案する。次に、クラス毎の誤った予測画像とキーワードの類似性に基づいて、クラスに固有のか非依存であるかをチェックすることにより、バイアスタイプを散発的な相関または多数派バイアスとして分類する。提案手法は,既知の性別や背景バイアスを再現し,実世界のデータセットから新しい手法を発見できることを示す。さらに,B2Tを用いて異なるアーキテクチャやトレーニング手法を用いて分類器を比較する。最後に,b2tバイアスキーワードとクリップをゼロショット法とフルショット法の両方で用い,バイアスに人間のアノテーションを使わずにデバイアス分類できることを示す。

関連論文リスト

Multimodal Political Bias Identification and Neutralization [0.0]
政治的反響室の存在により、政治記事のテキストや画像から主観的偏見を検出し、排除することが義務づけられる。 4つのステップからなるテキストと画像のバイアスを利用するモデルを提案する。これまでの結果は、この手法が有望であることを示しており、テキストの曖昧化戦略は、多くの潜在的なバイアスのある単語やフレーズを識別することができる。
論文参考訳（メタデータ） (2025-06-20T16:03:20Z)
Identifying Implicit Social Biases in Vision-Language Models [34.53206726136747]
我々は、視覚言語モデルに存在する社会的バイアスを体系的に分析する。 CLIPは有害な単語と特定の人口集団の間に望ましくない関連性を示すことが多い。本研究は,視覚言語モデルにおけるバイアスの評価と対処の重要性を強調した。
論文参考訳（メタデータ） (2024-11-01T19:41:28Z)
Eliminating the Language Bias for Visual Question Answering with fine-grained Causal Intervention [9.859335795616028]
よりきめ細かい視点から言語バイアスを排除するために,CIBiという新たな因果介入訓練手法を提案する。我々は、文脈バイアスを排除し、マルチモーダル表現を改善するために因果介入とコントラスト学習を用いる。我々は,キーワードバイアスを抽出・排除するために,対実生成に基づく質問専用ブランチを新たに設計する。
論文参考訳（メタデータ） (2024-10-14T06:09:16Z)
GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models [75.04426753720553]
開集合におけるバイアスを特定し,定量化し,説明するための枠組みを提案する。このパイプラインはLarge Language Model (LLM)を活用して、一連のキャプションから始まるバイアスを提案する。このフレームワークには、OpenBiasとGradBiasの2つのバリエーションがあります。
論文参考訳（メタデータ） (2024-08-29T16:51:07Z)
OpenBias: Open-set Bias Detection in Text-to-Image Generative Models [108.2219657433884]
OpenBiasを提示するテキストから画像生成モデルにおけるオープンセットバイアス検出の課題に対処する。 OpenBiasは、事前コンパイルされた集合にアクセスすることなく、バイアスの深刻度を不可知的に識別し、定量化する。本研究では, 安定拡散1.5, 2, XLの挙動について検討した。
論文参考訳（メタデータ） (2024-04-11T17:59:56Z)
VisoGender: A dataset for benchmarking gender bias in image-text pronoun resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。 We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文参考訳（メタデータ） (2023-06-21T17:59:51Z)
Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic Contrast Sets [52.77024349608834]
視覚言語モデルは、インターネットから未計算の画像テキストペアの事前トレーニング中に学んだ社会的バイアスを永続し、増幅することができる。 COCO Captionsは、背景コンテキストとその場にいる人々の性別間のバイアスを評価するために最も一般的に使用されるデータセットである。本研究では,COCOデータセットを男女バランスの取れたコントラストセットで拡張する新しいデータセットデバイアスパイプラインを提案する。
論文参考訳（メタデータ） (2023-05-24T17:59:18Z)
Mitigating Test-Time Bias for Fair Image Retrieval [18.349154934096784]
我々は、中立なテキストクエリにより、公平で偏りのない画像検索結果を生成するという課題に対処する。本稿では,事前学習した視覚言語モデルから出力を後処理する簡単な手法であるポストホックバイアス緩和手法を提案する。提案手法は,テキストによる画像検索結果において,既存の様々なバイアス軽減手法と比較して,最も低いバイアスを実現する。
論文参考訳（メタデータ） (2023-05-23T21:31:16Z)
To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo [53.370023611101175]
本稿では,Cuiらによって提案されたPerson-centric Visual Groundingタスクに対して,偏りのあるデータセットを提案する。画像とキャプションが与えられた場合、PCVGはキャプションに記載されている人物の名前と、画像内の人物を指し示すバウンディングボックスをペアリングする必要がある。オリジナルのWho's Waldoデータセットには、メソッドによって簡単に解ける多数のバイアスのあるサンプルが含まれていることが分かりました。
論文参考訳（メタデータ） (2022-03-30T21:35:53Z)
Identification of Biased Terms in News Articles by Comparison of Outlet-specific Word Embeddings [9.379650501033465]
我々は2つの単語埋め込みモデルを訓練し、1つは左翼のテキストで、もう1つは右翼のニュースメディアで訓練する。我々の仮説は、単語の埋め込み空間における表現は、偏りのある単語よりも非偏りのある単語に類似している、というものである。本稿では,単語の埋め込みによって測定されたバイアス語の文脈を詳細に考察する。
論文参考訳（メタデータ） (2021-12-14T13:23:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。