論文の概要: Debiasing Large Vision-Language Models by Ablating Protected Attribute Representations
- arxiv url: http://arxiv.org/abs/2410.13976v1
- Date: Thu, 17 Oct 2024 19:02:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:19.981271
- Title: Debiasing Large Vision-Language Models by Ablating Protected Attribute Representations
- Title(参考訳): 保護属性表現のアブラッティングによる大視領域モデルのデバイアス化
- Authors: Neale Ratzlaff, Matthew Lyle Olson, Musashi Hinck, Shao-Yen Tseng, Vasudev Lal, Phillip Howard,
- Abstract要約: 本稿では,テキスト生成時のバイアス属性を直接評価することで,LVLMのための新しい脱バイアスフレームワークを提案する。
本手法では, トレーニングを必要とせず, 比較的少数の代表バイアス出力が要求される。
我々の実験は、LVLMが保護属性に関連するテキストを生成することの妥当性を最小化できるだけでなく、合成データを使ってアブレーションを知らせることさえできることを示した。
- 参考スコア(独自算出の注目度): 7.052925981783274
- License:
- Abstract: Large Vision Language Models (LVLMs) such as LLaVA have demonstrated impressive capabilities as general-purpose chatbots that can engage in conversations about a provided input image. However, their responses are influenced by societal biases present in their training datasets, leading to undesirable differences in how the model responds when presented with images depicting people of different demographics. In this work, we propose a novel debiasing framework for LVLMs by directly ablating biased attributes during text generation to avoid generating text related to protected attributes, or even representing them internally. Our method requires no training and a relatively small amount of representative biased outputs (~1000 samples). Our experiments show that not only can we can minimize the propensity of LVLMs to generate text related to protected attributes, but we can even use synthetic data to inform the ablation while retaining captioning performance on real data such as COCO. Furthermore, we find the resulting generations from a debiased LVLM exhibit similar accuracy as a baseline biased model, showing that debiasing effects can be achieved without sacrificing model performance.
- Abstract(参考訳): LLaVAのようなLVLM(Large Vision Language Models)は、提供された入力画像に関する会話を行う汎用チャットボットとして、印象的な機能を示している。
しかし、彼らの反応はトレーニングデータセットに存在する社会的バイアスの影響を受けており、異なる人口層の人々を描いた画像が提示されたとき、モデルがどのように反応するかに好ましくない違いをもたらす。
本研究では,保護された属性に関連するテキストを生成したり,内部的に表現したりするのを避けるために,テキスト生成中にバイアス属性を直接分類することで,LVLMの新たなデバイアス化フレームワークを提案する。
本手法では, トレーニングを必要とせず, 比較的少数の代表バイアス出力(約1000サンプル)を必要とする。
我々は,LVLMが保護属性に関連するテキストを生成することの妥当性を最小化できるだけでなく,COCOなどの実データにキャプション性能を保ちながら,合成データを用いてアブレーションを通知できることを実証した。
さらに, 劣化したLVLMから得られた生成物は, ベースラインバイアスモデルと同様の精度を示し, モデル性能を犠牲にすることなく, 劣化効果が得られることを示した。
関連論文リスト
- Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Learning Fair Representations via Rate-Distortion Maximization [16.985698188471016]
本稿では,Fairness-Aware Rate Maximization (FaRM) を提案する。このFairness-Aware Rate Maximization (FaRM) は,Fairness-Aware Rate Maximization (FRM) 関数を用いて,同じ保護属性クラスに属するインスタンスの表現を非相関にすることで,人口統計情報を除去する。
FaRMは、複数のデータセット上で最先端のパフォーマンスを実現し、学習された表現は、非線形探索ネットワークによる攻撃に対する保護属性情報のリークを著しく少なくする。
論文 参考訳(メタデータ) (2022-01-31T19:00:52Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。