論文の概要: Fairness-aware Vision Transformer via Debiased Self-Attention
- arxiv url: http://arxiv.org/abs/2301.13803v2
- Date: Tue, 29 Aug 2023 17:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 18:59:39.082114
- Title: Fairness-aware Vision Transformer via Debiased Self-Attention
- Title(参考訳): debiased self-attentionによるフェアネス認識視覚トランスフォーマ
- Authors: Yao Qiang, Chengyin Li, Prashant Khanduri, and Dongxiao Zhu
- Abstract要約: Vision Transformer (ViT) は近年,コンピュータビジョン (CV) 問題の解決に多大な関心を集めている。
最近の研究は、その堅牢性と説明可能性を含む、ViTの信頼性を探求している。
既存のフェアネス対応アルゴリズム(主にCNN用に設計された)は、ViTではうまく動作しない。
- 参考スコア(独自算出の注目度): 12.406960223371959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) has recently gained significant interest in solving
computer vision (CV) problems due to its capability of extracting informative
features and modeling long-range dependencies through the self-attention
mechanism. To fully realize the advantages of ViT in real-world applications,
recent works have explored the trustworthiness of ViT, including its robustness
and explainability. However, another desiderata, fairness has not yet been
adequately addressed in the literature. We establish that the existing
fairness-aware algorithms (primarily designed for CNNs) do not perform well on
ViT. This necessitates the need for developing our novel framework via Debiased
Self-Attention (DSA). DSA is a fairness-through-blindness approach that
enforces ViT to eliminate spurious features correlated with the sensitive
attributes for bias mitigation. Notably, adversarial examples are leveraged to
locate and mask the spurious features in the input image patches. In addition,
DSA utilizes an attention weights alignment regularizer in the training
objective to encourage learning informative features for target prediction.
Importantly, our DSA framework leads to improved fairness guarantees over prior
works on multiple prediction tasks without compromising target prediction
performance.
- Abstract(参考訳): 視覚変換器(ViT)は,情報的特徴を抽出し,自己認識機構を通じて長距離依存をモデル化する能力により,コンピュータビジョン(CV)問題の解決に大きな関心を寄せている。
実世界の応用におけるViTの利点をフルに実現するために、最近の研究は、その堅牢性と説明可能性を含む、ViTの信頼性について検討している。
しかし、別のデシダータは、文学ではまだフェアネスが適切に扱われていない。
既存のフェアネス対応アルゴリズム(主にCNN用に設計された)は、ViTではうまく動作しない。
これは、debiased self-attention (dsa) による新しいフレームワークの開発を必要とする。
DSAは、バイアス軽減のための感度特性と相関する刺激的な特徴を排除するためにViTを強制するフェアネススルー・ブラインドネスアプローチである。
特に、逆例を利用して、入力画像パッチ内のスプリアス特徴を特定し、隠蔽する。
さらに、DSAはトレーニング目的の注意重み付け調整器を利用して、目標予測のための学習情報特徴を促進する。
重要なことは、我々のDSAフレームワークは、目標予測性能を損なうことなく、複数の予測タスクに対する事前作業よりも公平性を保証する。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - FairViT: Fair Vision Transformer via Adaptive Masking [12.623905443515802]
Vision Transformer (ViT) は優れた性能を発揮し、様々なコンピュータビジョンタスクにおいて有望な可能性を実証している。
しかし、ほとんどの ViT ベースの作品は公平性を考慮しておらず、CNN 指向の debiased アルゴリズムを直接 ViT に適用できるかどうかは不明である。
提案するFairViTは,新しい正確かつ公平なViTフレームワークである。
論文 参考訳(メタデータ) (2024-07-20T08:10:37Z) - Uncertainty-boosted Robust Video Activity Anticipation [72.14155465769201]
ビデオアクティビティの予測は、ロボットビジョンから自動運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。
近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。
本研究では,予測結果の信頼性を示す不確実な値を生成する,不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T12:31:38Z) - Interpretability-Aware Vision Transformer [13.310757078491916]
視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。
そこで本研究では,モデル解釈可能性を高める新たなトレーニング手法を提案する。
IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
論文 参考訳(メタデータ) (2023-09-14T21:50:49Z) - ARBEx: Attentive Feature Extraction with Reliability Balancing for Robust Facial Expression Learning [5.648318448953635]
ARBExはVision Transformerによって駆動される新しい注意的特徴抽出フレームワークである。
ラベル分布とマルチヘッド自己保持機構を備えた埋め込み空間において学習可能なアンカーポイントを用いて、弱い予測に対する性能を最適化する。
我々の戦略は、様々な文脈で実施された広範な実験により、現在の最先端の方法論よりも優れています。
論文 参考訳(メタデータ) (2023-05-02T15:10:01Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Function Composition in Trustworthy Machine Learning: Implementation
Choices, Insights, and Questions [28.643482049799477]
本稿では,信頼感の異なる「柱」から生じる機能の構成に焦点を当てる。
実世界の信頼に値する7つの次元 - 公正さと説明可能性 - に関する実験結果と新たな知見を報告する。
また,複数の柱からの機能の組み合わせを促すために,作曲家ツールの進捗状況と実装選択について報告する。
論文 参考訳(メタデータ) (2023-02-17T23:49:16Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。