論文の概要: Fairness-aware Vision Transformer via Debiased Self-Attention
- arxiv url: http://arxiv.org/abs/2301.13803v3
- Date: Thu, 11 Jul 2024 02:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-13 00:07:09.826945
- Title: Fairness-aware Vision Transformer via Debiased Self-Attention
- Title(参考訳): 脱バイアス自己注意によるフェアネス認識型視覚変換器
- Authors: Yao Qiang, Chengyin Li, Prashant Khanduri, Dongxiao Zhu,
- Abstract要約: 脱バイアス自己注意(Debiased Self-Attention, DSA)は、視覚変換器(ViT)を強制し、バイアス軽減のための感度ラベルと相関する刺激的な特徴を排除するフェアネススルー盲検アプローチである。
本フレームワークは,目標予測性能を損なうことなく,複数の予測タスクに対する事前作業よりも公平性を保証する。
- 参考スコア(独自算出の注目度): 12.406960223371959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) has recently gained significant attention in solving computer vision (CV) problems due to its capability of extracting informative features and modeling long-range dependencies through the attention mechanism. Whereas recent works have explored the trustworthiness of ViT, including its robustness and explainability, the issue of fairness has not yet been adequately addressed. We establish that the existing fairness-aware algorithms designed for CNNs do not perform well on ViT, which highlights the need to develop our novel framework via Debiased Self-Attention (DSA). DSA is a fairness-through-blindness approach that enforces ViT to eliminate spurious features correlated with the sensitive label for bias mitigation and simultaneously retain real features for target prediction. Notably, DSA leverages adversarial examples to locate and mask the spurious features in the input image patches with an additional attention weights alignment regularizer in the training objective to encourage learning real features for target prediction. Importantly, our DSA framework leads to improved fairness guarantees over prior works on multiple prediction tasks without compromising target prediction performance. Code is available at \href{https://github.com/qiangyao1988/DSA}{https://github.com/qiangyao1988/DSA}.
- Abstract(参考訳): 視覚変換器(ViT)は近年,情報的特徴を抽出し,注意機構を通じて長距離依存をモデル化する能力により,コンピュータビジョン(CV)問題の解決に大きな注目を集めている。
近年の研究では、その堅牢性や説明可能性など、ViTの信頼性について検討されているが、公平性の問題はまだ十分に解決されていない。
CNN向けに設計された既存のフェアネス対応アルゴリズムはViTではうまく動作せず、デバイアスド・セルフアテンション(DSA)を介して新しいフレームワークを開発する必要性を強調している。
DSAはフェアネススルー・ブラインドネスアプローチであり、ViTを強制し、バイアス軽減のためのセンシティブなラベルに関連付けられた刺激的な特徴を排除し、ターゲット予測のための実際の特徴を同時に保持する。
特に、DSAは敵対的な例を活用して、入力画像パッチの突発的な特徴を発見・隠蔽し、トレーニング目標に注意重み調整正則化を付加し、目標予測のための実際の特徴の学習を促す。
重要なことは、我々のDSAフレームワークは、目標予測性能を損なうことなく、複数の予測タスクに対する事前作業よりも公平性を保証する。
コードは \href{https://github.com/qiangyao1988/DSA}{https://github.com/qiangyao1988/DSA} で公開されている。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - FairViT: Fair Vision Transformer via Adaptive Masking [12.623905443515802]
Vision Transformer (ViT) は優れた性能を発揮し、様々なコンピュータビジョンタスクにおいて有望な可能性を実証している。
しかし、ほとんどの ViT ベースの作品は公平性を考慮しておらず、CNN 指向の debiased アルゴリズムを直接 ViT に適用できるかどうかは不明である。
提案するFairViTは,新しい正確かつ公平なViTフレームワークである。
論文 参考訳(メタデータ) (2024-07-20T08:10:37Z) - Uncertainty-boosted Robust Video Activity Anticipation [72.14155465769201]
ビデオアクティビティの予測は、ロボットビジョンから自動運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。
近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。
本研究では,予測結果の信頼性を示す不確実な値を生成する,不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T12:31:38Z) - Interpretability-Aware Vision Transformer [13.310757078491916]
視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。
そこで本研究では,モデル解釈可能性を高める新たなトレーニング手法を提案する。
IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
論文 参考訳(メタデータ) (2023-09-14T21:50:49Z) - ARBEx: Attentive Feature Extraction with Reliability Balancing for Robust Facial Expression Learning [5.648318448953635]
ARBExはVision Transformerによって駆動される新しい注意的特徴抽出フレームワークである。
ラベル分布とマルチヘッド自己保持機構を備えた埋め込み空間において学習可能なアンカーポイントを用いて、弱い予測に対する性能を最適化する。
我々の戦略は、様々な文脈で実施された広範な実験により、現在の最先端の方法論よりも優れています。
論文 参考訳(メタデータ) (2023-05-02T15:10:01Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Function Composition in Trustworthy Machine Learning: Implementation
Choices, Insights, and Questions [28.643482049799477]
本稿では,信頼感の異なる「柱」から生じる機能の構成に焦点を当てる。
実世界の信頼に値する7つの次元 - 公正さと説明可能性 - に関する実験結果と新たな知見を報告する。
また,複数の柱からの機能の組み合わせを促すために,作曲家ツールの進捗状況と実装選択について報告する。
論文 参考訳(メタデータ) (2023-02-17T23:49:16Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。