論文の概要: Mitigating Test-Time Bias for Fair Image Retrieval
- arxiv url: http://arxiv.org/abs/2305.19329v1
- Date: Tue, 23 May 2023 21:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 10:59:40.259159
- Title: Mitigating Test-Time Bias for Fair Image Retrieval
- Title(参考訳): 画像検索のためのテスト時間バイアスの緩和
- Authors: Fanjie Kong, Shuai Yuan, Weituo Hao, Ricardo Henao
- Abstract要約: 我々は、中立なテキストクエリにより、公平で偏りのない画像検索結果を生成するという課題に対処する。
本稿では,事前学習した視覚言語モデルから出力を後処理する簡単な手法であるポストホックバイアス緩和手法を提案する。
提案手法は,テキストによる画像検索結果において,既存の様々なバイアス軽減手法と比較して,最も低いバイアスを実現する。
- 参考スコア(独自算出の注目度): 18.349154934096784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenge of generating fair and unbiased image retrieval
results given neutral textual queries (with no explicit gender or race
connotations), while maintaining the utility (performance) of the underlying
vision-language (VL) model. Previous methods aim to disentangle learned
representations of images and text queries from gender and racial
characteristics. However, we show these are inadequate at alleviating bias for
the desired equal representation result, as there usually exists test-time bias
in the target retrieval set. So motivated, we introduce a straightforward
technique, Post-hoc Bias Mitigation (PBM), that post-processes the outputs from
the pre-trained vision-language model. We evaluate our algorithm on real-world
image search datasets, Occupation 1 and 2, as well as two large-scale
image-text datasets, MS-COCO and Flickr30k. Our approach achieves the lowest
bias, compared with various existing bias-mitigation methods, in text-based
image retrieval result while maintaining satisfactory retrieval performance.
The source code is publicly available at
\url{https://anonymous.4open.science/r/Fair_Text_based_Image_Retrieval-D8B2}.
- Abstract(参考訳): 本稿では,視覚言語モデル(vl)の有用性(性能)を維持しつつ,中性的なテキストクエリ(明示的な性別や人種意味を含まない)に対して,公平で偏りのない画像検索結果を生成する課題に対処する。
従来の手法は、画像やテキストクエリの学習表現を性別や人種的特徴から切り離すことを目的としていた。
しかし, 対象検索集合には通常テスト時バイアスが存在するため, 所望の等価表現結果に対するバイアスの軽減には不十分であることを示す。
そこで我々は,事前学習した視覚言語モデルからの出力を後処理する,簡単な手法pbm(post-hoc bias mitigation)を導入する。
本アルゴリズムは,実世界の画像検索データセットである occupation 1 と 2 と,ms-coco と flickr30k の2つの大規模画像テキストデータセット上で評価する。
本手法は,テキストベースの画像検索結果において,既存のバイアス軽減手法と比較して,検索性能を維持しつつ,最も低いバイアスを実現する。
ソースコードは \url{https://anonymous.4open.science/r/Fair_Text_based_Image_Retrieval-D8B2} で公開されている。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models [75.04426753720553]
開集合におけるバイアスを特定し,定量化し,説明するための枠組みを提案する。
このパイプラインはLarge Language Model (LLM)を活用して、一連のキャプションから始まるバイアスを提案する。
このフレームワークには、OpenBiasとGradBiasの2つのバリエーションがあります。
論文 参考訳(メタデータ) (2024-08-29T16:51:07Z) - When Text and Images Don't Mix: Bias-Correcting Language-Image Similarity Scores for Anomaly Detection [35.09035417676343]
テキスト入力の埋め込みは、モデルの対照的な訓練目標とは対照的に、画像埋め込みから遠ざかって、予期せず密集していることを示す。
本稿では,この類似性バイアスを補助的,外部的なテキスト入力を用いて直接考慮するBLISSという手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T08:20:02Z) - Classes Are Not Equal: An Empirical Study on Image Recognition Fairness [100.36114135663836]
我々は,クラスが等しくないことを実験的に証明し,様々なデータセットにまたがる画像分類モデルにおいて,公平性の問題が顕著であることを示した。
以上の結果から,モデルでは認識が困難であるクラスに対して,予測バイアスが大きくなる傾向が示唆された。
データ拡張および表現学習アルゴリズムは、画像分類のある程度の公平性を促進することにより、全体的なパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T07:54:50Z) - Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic
Contrast Sets [52.77024349608834]
視覚言語モデルは、インターネットから未計算の画像テキストペアの事前トレーニング中に学んだ社会的バイアスを永続し、増幅することができる。
COCO Captionsは、背景コンテキストとその場にいる人々の性別間のバイアスを評価するために最も一般的に使用されるデータセットである。
本研究では,COCOデータセットを男女バランスの取れたコントラストセットで拡張する新しいデータセットデバイアスパイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:59:18Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - Discovering and Mitigating Visual Biases through Keyword Explanation [66.71792624377069]
視覚バイアスをキーワードとして解釈するBias-to-Text(B2T)フレームワークを提案する。
B2Tは、CelebAの性別バイアス、ウォーターバードの背景バイアス、ImageNet-R/Cの分布シフトなど、既知のバイアスを特定することができる。
B2Tは、Dollar StreetやImageNetのような大きなデータセットで、新しいバイアスを明らかにする。
論文 参考訳(メタデータ) (2023-01-26T13:58:46Z) - To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo [53.370023611101175]
本稿では,Cuiらによって提案されたPerson-centric Visual Groundingタスクに対して,偏りのあるデータセットを提案する。
画像とキャプションが与えられた場合、PCVGはキャプションに記載されている人物の名前と、画像内の人物を指し示すバウンディングボックスをペアリングする必要がある。
オリジナルのWho's Waldoデータセットには、メソッドによって簡単に解ける多数のバイアスのあるサンプルが含まれていることが分かりました。
論文 参考訳(メタデータ) (2022-03-30T21:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。