論文の概要: Freeze and Reveal: Exposing Modality Bias in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.07432v1
- Date: Sun, 10 Aug 2025 17:08:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.856356
- Title: Freeze and Reveal: Exposing Modality Bias in Vision-Language Models
- Title(参考訳): 凍結と啓発:視覚・言語モデルにおけるモダリティバイアスの露呈
- Authors: Vivek Hruday Kavuri, Vysishtya Karanam, Venkata Jahnavi Venkamsetty, Kriti Madumadukala, Lakshmipathi Balaji Darur, Ponnurangam Kumaraguru,
- Abstract要約: 視覚言語モデルは、印象的なマルチモーダルパフォーマンスを達成するが、しばしばトレーニングデータから性別バイアスを継承する。
本研究では,これらのバイアスに対する視覚とテキストのバックボーンの寄与を,対象の偏りを適用して判別する。
我々の研究は、将来のマルチモーダルシステムにおけるより標的的で効果的なバイアス緩和戦略を可能にする。
- 参考スコア(独自算出の注目度): 5.368169150936655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models achieve impressive multi-modal performance but often inherit gender biases from their training data. This bias might be coming from both the vision and text modalities. In this work, we dissect the contributions of vision and text backbones to these biases by applying targeted debiasing using Counterfactual Data Augmentation and Task Vector methods. Inspired by data-efficient approaches in hate-speech classification, we introduce a novel metric, Degree of Stereotypicality and a corresponding debiasing method, Data Augmentation Using Degree of Stereotypicality - DAUDoS, to reduce bias with minimal computational cost. We curate a gender annotated dataset and evaluate all methods on VisoGender benchmark to quantify improvements and identify dominant source of bias. Our results show that CDA reduces the gender gap by 6% and DAUDoS by 3% but using only one-third of the data. Both methods also improve the model's ability to correctly identify gender in images by 3%, with DAUDoS achieving this improvement using only almost one-third of training data. From our experiment's, we observed that CLIP's vision encoder is more biased whereas PaliGemma2's text encoder is more biased. By identifying whether bias stems more from vision or text encoders, our work enables more targeted and effective bias mitigation strategies in future multi-modal systems.
- Abstract(参考訳): 視覚言語モデルは、印象的なマルチモーダルパフォーマンスを達成するが、しばしばトレーニングデータから性別バイアスを継承する。
このバイアスは、ビジョンとテキストのモダリティの両方から生まれるかもしれません。
本研究では,これらのバイアスに対する視覚とテキストのバックボーンの寄与を,非現実的データ拡張とタスクベクトル法を用いた目標偏差の適用により判別する。
ヘイト・音声分類におけるデータ効率のアプローチに着想を得て, 最小計算コストでバイアスを低減するために, ステレオタイプ性の度合いとそれに対応するデバイアス化手法, DAUDoSを用いたデータ拡張を導入する。
性別アノテートされたデータセットをキュレートし、VisoGenderベンチマークのすべてのメソッドを評価し、改善の定量化とバイアスの主原因の特定を行う。
以上の結果から,CDAは男女差を6%減らし,DAUDoSは3%減らした。
どちらの手法も、画像内の性別を正しく識別する能力を3%改善し、DAUDoSはこの改善をトレーニングデータの3分の1程度で達成している。
実験の結果,CLIPのビジョンエンコーダは偏りが強く,PaliGemma2のテキストエンコーダは偏りが強いことがわかった。
偏見が視覚やテキストエンコーダに起因しているかどうかを判断することで、将来のマルチモーダルシステムにおいて、よりターゲット的で効果的な偏見緩和戦略を可能にする。
関連論文リスト
- Revealing and Reducing Gender Biases in Vision and Language Assistants (VLAs) [82.57490175399693]
画像・テキスト・ビジョン言語アシスタント(VLA)22種における性別バイアスの検討
以上の結果から,VLAは実世界の作業不均衡など,データ中の人間のバイアスを再現する可能性が示唆された。
これらのモデルにおける性別バイアスを排除するため、微調整に基づくデバイアス法は、デバイアス化と性能維持の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-10-25T05:59:44Z) - debiaSAE: Benchmarking and Mitigating Vision-Language Model Bias [1.3995965887921709]
5つのモデルと6つのデータセットの人口統計バイアスを分析します。
UTKFaceやCelebAといったポートレートデータセットは、バイアス検出に最適なツールです。
我々のデバイアス法は公平さを向上し,ベースラインよりも5~15ポイントの性能向上を実現した。
論文 参考訳(メタデータ) (2024-10-17T02:03:27Z) - Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective [13.486497323758226]
広範囲なデータセットで事前訓練された視覚言語モデルは、性情報とオブジェクトやシナリオを関連付けることによって、必然的にバイアスを学習することができる。
本稿では,因果媒介分析を取り入れた枠組みを提案し,バイアス発生と伝播の経路を計測・マッピングする。
論文 参考訳(メタデータ) (2024-07-03T05:19:45Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic
Contrast Sets [52.77024349608834]
視覚言語モデルは、インターネットから未計算の画像テキストペアの事前トレーニング中に学んだ社会的バイアスを永続し、増幅することができる。
COCO Captionsは、背景コンテキストとその場にいる人々の性別間のバイアスを評価するために最も一般的に使用されるデータセットである。
本研究では,COCOデータセットを男女バランスの取れたコントラストセットで拡張する新しいデータセットデバイアスパイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:59:18Z) - An Empirical Survey of the Effectiveness of Debiasing Techniques for
Pre-Trained Language Models [4.937002982255573]
最近の研究によると、事前学習された言語モデルは、訓練されたテキストコーパスから社会的偏見を捉えている。
最近提案された5つのデバイアス技術: 対実データ拡張、ドロップアウト、イテレーティブヌルスペース投影、セルフデバイアス、センテンスデバイアス。
3つの異なるバイアスベンチマークを用いて各手法の有効性を定量化するとともに,これらの手法がモデル言語モデリング能力に与える影響を計測する。
論文 参考訳(メタデータ) (2021-10-16T09:40:30Z) - Mitigating Gender Bias in Captioning Systems [56.25457065032423]
ほとんどのキャプションモデルは性別バイアスを学習し、特に女性にとって高い性別予測エラーにつながる。
本稿では, 視覚的注意を自己指導し, 正しい性的な視覚的証拠を捉えるためのガイド付き注意画像キャプチャーモデル(GAIC)を提案する。
論文 参考訳(メタデータ) (2020-06-15T12:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。