論文の概要: Biased Attention: Do Vision Transformers Amplify Gender Bias More than
Convolutional Neural Networks?
- arxiv url: http://arxiv.org/abs/2309.08760v1
- Date: Fri, 15 Sep 2023 20:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 19:34:24.495852
- Title: Biased Attention: Do Vision Transformers Amplify Gender Bias More than
Convolutional Neural Networks?
- Title(参考訳): 偏り:視覚トランスフォーマーは、畳み込みニューラルネットワークよりもジェンダーバイアスを増幅するのか?
- Authors: Abhishek Mandal, Susan Leavy, and Suzanne Little
- Abstract要約: コンピュータビジョンで使用されるディープニューラルネットワークは、性別バイアスのような多くの社会的バイアスを示すことが示されている。
ビジョントランスフォーマー(ViT)は、コンピュータビジョンアプリケーションにおいて、画像分類などの多くのタスクにおいて、畳み込みニューラルネットワーク(CNN)を上回っている。
この研究により、ViTsはCNNよりも男女の偏見を増幅していることがわかった。
- 参考スコア(独自算出の注目度): 2.8391805742728553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks used in computer vision have been shown to exhibit many
social biases such as gender bias. Vision Transformers (ViTs) have become
increasingly popular in computer vision applications, outperforming
Convolutional Neural Networks (CNNs) in many tasks such as image
classification. However, given that research on mitigating bias in computer
vision has primarily focused on CNNs, it is important to evaluate the effect of
a different network architecture on the potential for bias amplification. In
this paper we therefore introduce a novel metric to measure bias in
architectures, Accuracy Difference. We examine bias amplification when models
belonging to these two architectures are used as a part of large multimodal
models, evaluating the different image encoders of Contrastive Language Image
Pretraining which is an important model used in many generative models such as
DALL-E and Stable Diffusion. Our experiments demonstrate that architecture can
play a role in amplifying social biases due to the different techniques
employed by the models for feature extraction and embedding as well as their
different learning properties. This research found that ViTs amplified gender
bias to a greater extent than CNNs
- Abstract(参考訳): コンピュータビジョンで使用されるディープニューラルネットワークは、ジェンダーバイアスのような多くの社会的バイアスを示すことが示されている。
ビジョントランスフォーマー(ViT)は、コンピュータビジョンアプリケーションにおいて、画像分類などの多くのタスクにおいて、畳み込みニューラルネットワーク(CNN)を上回っている。
しかし,コンピュータビジョンにおけるバイアス軽減に関する研究は主にcnnに焦点をあてていることから,異なるネットワークアーキテクチャがバイアス増幅の可能性に与える影響を評価することが重要である。
そこで本稿では,アーキテクチャのバイアス,精度差を測定するための新しい指標を提案する。
これら2つのアーキテクチャに属するモデルが大規模マルチモーダルモデルの一部として使用される場合のバイアス増幅について検討し、dall-eやstable diffusionといった多くの生成モデルにおいて重要なモデルであるコントラスト言語イメージプリトレーニングの異なる画像エンコーダを評価する。
実験では,特徴抽出・埋め込みモデルや学習特性の異なるモデルが採用するさまざまな手法により,建築が社会バイアスの増幅に一役買うことを実証した。
この研究によると、vitsはcnnよりも男女のバイアスを増幅した
関連論文リスト
- Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - ViTs are Everywhere: A Comprehensive Study Showcasing Vision
Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。
ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文 参考訳(メタデータ) (2023-10-09T12:31:30Z) - A Multidimensional Analysis of Social Biases in Vision Transformers [15.98510071115958]
視覚変換器(ViTs)の社会的バイアスに対するトレーニングデータ、モデルアーキテクチャ、トレーニング目標の影響を計測する。
以上の結果から,拡散画像編集による反ファクト改善訓練はバイアスを軽減することができるが,除去はできないことが示唆された。
より大規模なモデルは、より小さなモデルよりもバイアスが少ないこと、そして識別目的を用いて訓練されたモデルは、生成目的を用いて訓練されたモデルよりもバイアスが少ないことを発見した。
論文 参考訳(メタデータ) (2023-08-03T09:03:40Z) - Connecting metrics for shape-texture knowledge in computer vision [1.7785095623975342]
深層ニューラルネットワークは、人間が画像の分類ミスを起こさないような、画像の多くの変化の影響を受けやすいままである。
この異なる振る舞いの一部は、視覚タスクで人間とディープニューラルネットワークが使用する機能の種類によって説明できるかもしれない。
論文 参考訳(メタデータ) (2023-01-25T14:37:42Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Are Convolutional Neural Networks or Transformers more like human
vision? [9.83454308668432]
視覚タスクにおけるCNNよりも注意に基づくネットワークの方が精度が高いことを示す。
これらの結果は、人間の視覚モデルの構築だけでなく、人間の視覚的物体認識の理解にも影響を及ぼす。
論文 参考訳(メタデータ) (2021-05-15T10:33:35Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。