論文の概要: Mapping Bias in Vision Language Models: Signposts, Pitfalls, and the Road Ahead
- arxiv url: http://arxiv.org/abs/2410.13146v1
- Date: Thu, 17 Oct 2024 02:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:49.892285
- Title: Mapping Bias in Vision Language Models: Signposts, Pitfalls, and the Road Ahead
- Title(参考訳): ビジョン言語モデルにおけるバイアスのマッピング:サインポスト、落とし穴、道路前
- Authors: Kuleen Sasse, Shan Chen, Jackson Pond, Danielle Bitterman, John Osborne,
- Abstract要約: 5つのモデルと6つのデータセットの人口統計バイアスを分析します。
UTKFaceやCelebAといったポートレートデータセットは、バイアス検出に最適なツールです。
より厳格な評価のために、より難しいバージョンのVisoGenderを紹介します。
- 参考スコア(独自算出の注目度): 1.3995965887921709
- License:
- Abstract: As Vision Language Models (VLMs) gain widespread use, their fairness remains under-explored. In this paper, we analyze demographic biases across five models and six datasets. We find that portrait datasets like UTKFace and CelebA are the best tools for bias detection, finding gaps in performance and fairness between LLaVa and CLIP models. However, scene based datasets like PATA, VLStereoSet fail to be useful benchmarks for bias due to their construction. As for pronoun based datasets like VisoGender, we receive mixed signals as only some subsets of the data are useful in providing insights. To alleviate this problem, we introduce a more difficult version of VisoGender to serve as a more rigorous evaluation. Based on these results, we call for more effective and carefully designed datasets to ensure VLMs are both fair and reliable.
- Abstract(参考訳): ビジョン言語モデル (VLM) が広く使われるようになると、その公平性は未解明のままである。
本稿では,5つのモデルと6つのデータセットにまたがる人口統計バイアスを分析する。
UTKFaceやCelebAのようなポートレートデータセットは、バイアス検出、LLaVaとCLIPモデル間のパフォーマンスと公平性のギャップを見つけるのに最適なツールであることがわかった。
しかしながら、PATAやVLStereoSetのようなシーンベースのデータセットは、その構成のためバイアスに有効なベンチマークにはならない。
VisoGenderのような代名詞ベースのデータセットについては、データのいくつかのサブセットだけが洞察を提供するのに役立つため、混合信号を受け取る。
この問題を軽減するために,より厳密な評価を行うために,より難しいバージョンのVisoGenderを導入する。
これらの結果に基づいて、VLMが公平で信頼性の高いものであることを保証するために、より効率的で慎重に設計されたデータセットを求めます。
関連論文リスト
- What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文 参考訳(メタデータ) (2024-04-03T02:40:35Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - A First Look at Dataset Bias in License Plate Recognition [1.8496815029347666]
データセットバイアスは コンピュータビジョンのコミュニティで 深刻な問題と認識されています
本稿では,ライセンスプレート認識におけるデータセットバイアス問題について検討する。
論文 参考訳(メタデータ) (2022-08-23T00:20:33Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。