論文の概要: Fairness-aware Vision Transformer via Debiased Self-Attention
- arxiv url: http://arxiv.org/abs/2301.13803v2
- Date: Tue, 29 Aug 2023 17:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 18:59:39.082114
- Title: Fairness-aware Vision Transformer via Debiased Self-Attention
- Title(参考訳): debiased self-attentionによるフェアネス認識視覚トランスフォーマ
- Authors: Yao Qiang, Chengyin Li, Prashant Khanduri, and Dongxiao Zhu
- Abstract要約: Vision Transformer (ViT) は近年,コンピュータビジョン (CV) 問題の解決に多大な関心を集めている。
最近の研究は、その堅牢性と説明可能性を含む、ViTの信頼性を探求している。
既存のフェアネス対応アルゴリズム(主にCNN用に設計された)は、ViTではうまく動作しない。
- 参考スコア(独自算出の注目度): 12.406960223371959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) has recently gained significant interest in solving
computer vision (CV) problems due to its capability of extracting informative
features and modeling long-range dependencies through the self-attention
mechanism. To fully realize the advantages of ViT in real-world applications,
recent works have explored the trustworthiness of ViT, including its robustness
and explainability. However, another desiderata, fairness has not yet been
adequately addressed in the literature. We establish that the existing
fairness-aware algorithms (primarily designed for CNNs) do not perform well on
ViT. This necessitates the need for developing our novel framework via Debiased
Self-Attention (DSA). DSA is a fairness-through-blindness approach that
enforces ViT to eliminate spurious features correlated with the sensitive
attributes for bias mitigation. Notably, adversarial examples are leveraged to
locate and mask the spurious features in the input image patches. In addition,
DSA utilizes an attention weights alignment regularizer in the training
objective to encourage learning informative features for target prediction.
Importantly, our DSA framework leads to improved fairness guarantees over prior
works on multiple prediction tasks without compromising target prediction
performance.
- Abstract(参考訳): 視覚変換器(ViT)は,情報的特徴を抽出し,自己認識機構を通じて長距離依存をモデル化する能力により,コンピュータビジョン(CV)問題の解決に大きな関心を寄せている。
実世界の応用におけるViTの利点をフルに実現するために、最近の研究は、その堅牢性と説明可能性を含む、ViTの信頼性について検討している。
しかし、別のデシダータは、文学ではまだフェアネスが適切に扱われていない。
既存のフェアネス対応アルゴリズム(主にCNN用に設計された)は、ViTではうまく動作しない。
これは、debiased self-attention (dsa) による新しいフレームワークの開発を必要とする。
DSAは、バイアス軽減のための感度特性と相関する刺激的な特徴を排除するためにViTを強制するフェアネススルー・ブラインドネスアプローチである。
特に、逆例を利用して、入力画像パッチ内のスプリアス特徴を特定し、隠蔽する。
さらに、DSAはトレーニング目的の注意重み付け調整器を利用して、目標予測のための学習情報特徴を促進する。
重要なことは、我々のDSAフレームワークは、目標予測性能を損なうことなく、複数の予測タスクに対する事前作業よりも公平性を保証する。
関連論文リスト
- Multi-Attribute Vision Transformers are Efficient and Robust Learners [4.869897497679351]
畳み込みニューラルネットワーク(CNN)の代替として、視覚変換器(ViT)が登場した。
ViTsの未発見の側面のひとつは、マルチ属性学習の可能性である。
異なるタスクとして1つのViTネットワークを介して、様々な属性をトレーニングするための、単純かつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-02-12T21:31:13Z) - Forgery-aware Adaptive Vision Transformer for Face Forgery Detection [57.56537940216884]
FA-ViT(Forgery-aware Adaptive Vision Transformer)を提案する。
FA-ViTでは、バニラViTのパラメータは、事前訓練された知識を保持するために凍結される。
特殊設計された2つのコンポーネント、LFI(Local-Aware Forgery)とGFA(Global-Aware Forgery Adaptor)は、フォージェリー関連の知識に適応するために使用される。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Interpretability-Aware Vision Transformer [13.310757078491916]
視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。
そこで本研究では,モデル解釈可能性を高める新たなトレーニング手法を提案する。
IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
論文 参考訳(メタデータ) (2023-09-14T21:50:49Z) - ARBEx: Attentive Feature Extraction with Reliability Balancing for
Robust Facial Expression Learning [1.9844265130823329]
ARBExはVision Transformerによって駆動される新しい注意的特徴抽出フレームワークである。
ラベル分布とマルチヘッド自己保持機構を備えた埋め込み空間において学習可能なアンカーポイントを用いて、弱い予測に対する性能を最適化する。
我々の戦略は、様々な文脈で実施された広範な実験により、現在の最先端の方法論よりも優れています。
論文 参考訳(メタデータ) (2023-05-02T15:10:01Z) - VISION DIFFMASK: Faithful Interpretation of Vision Transformers with
Differentiable Patch Masking [10.345616883018296]
本稿では、VVISION DIFFMASKと呼ばれるポストホック解釈法を提案する。
モデルの隠れたレイヤのアクティベートを使用して、最終的な予測に寄与する入力の関連部分を予測します。
我々の手法は、予測されたクラス上の分布を保存する元の入力の最小サブセットを特定するためにゲーティング機構を使用する。
論文 参考訳(メタデータ) (2023-04-13T10:49:26Z) - Mitigating Bias in Visual Transformers via Targeted Alignment [8.674650784377196]
コンピュータビジョンに適用されたトランスフォーマーの公正性について検討し、先行研究からいくつかのバイアス緩和アプローチをベンチマークする。
本稿では,主にクエリ行列の特徴からバイアスを発見し,除去することを目的とした,デバイアス変換器のアライメント戦略であるTADeTを提案する。
論文 参考訳(メタデータ) (2023-02-08T22:11:14Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z) - TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation [54.61786380919243]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
これまでの研究は主に、ドメイン不変表現を学ぶために畳み込みニューラルネットワーク(CNN)上に構築されていた。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は文献上未解明のままである。
論文 参考訳(メタデータ) (2021-08-12T22:37:43Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。