論文の概要: FairViT: Fair Vision Transformer via Adaptive Masking
- arxiv url: http://arxiv.org/abs/2407.14799v1
- Date: Sat, 20 Jul 2024 08:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 20:54:15.996961
- Title: FairViT: Fair Vision Transformer via Adaptive Masking
- Title(参考訳): FairViT:適応型マスキングによるフェアビジョントランスフォーマー
- Authors: Bowei Tian, Ruijie Du, Yanning Shen,
- Abstract要約: Vision Transformer (ViT) は優れた性能を発揮し、様々なコンピュータビジョンタスクにおいて有望な可能性を実証している。
しかし、ほとんどの ViT ベースの作品は公平性を考慮しておらず、CNN 指向の debiased アルゴリズムを直接 ViT に適用できるかどうかは不明である。
提案するFairViTは,新しい正確かつ公平なViTフレームワークである。
- 参考スコア(独自算出の注目度): 12.623905443515802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) has achieved excellent performance and demonstrated its promising potential in various computer vision tasks. The wide deployment of ViT in real-world tasks requires a thorough understanding of the societal impact of the model. However, most ViT-based works do not take fairness into account and it is unclear whether directly applying CNN-oriented debiased algorithm to ViT is feasible. Moreover, previous works typically sacrifice accuracy for fairness. Therefore, we aim to develop an algorithm that improves accuracy without sacrificing fairness. In this paper, we propose FairViT, a novel accurate and fair ViT framework. To this end, we introduce a novel distance loss and deploy adaptive fairness-aware masks on attention layers updating with model parameters. Experimental results show \sys can achieve accuracy better than other alternatives, even with competitive computational efficiency. Furthermore, \sys achieves appreciable fairness results.
- Abstract(参考訳): Vision Transformer (ViT) は優れた性能を発揮し、様々なコンピュータビジョンタスクにおいて有望な可能性を実証している。
実世界のタスクにおけるViTの広範な展開は、モデルの社会的影響を徹底的に理解する必要がある。
しかし、ほとんどの ViT ベースの作品は公平性を考慮しておらず、CNN 指向の debiased アルゴリズムを直接 ViT に適用できるかどうかは不明である。
さらに、前作は概ね公正さの正確さを犠牲にしている。
そこで本研究では,公正性を犠牲にすることなく精度を向上させるアルゴリズムを開発することを目的とする。
本稿では,新しい高精度かつ公正なViTフレームワークであるFairViTを提案する。
この目的のために,モデルパラメータを更新するアテンション層に新しい距離損失を導入し,適応フェアネス対応マスクを配置する。
実験結果から,競争力のある計算効率であっても,他の選択肢よりも精度が向上することが示された。
さらに、‘sys’は見事な公平性の結果を得る。
関連論文リスト
- A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - Fairness-aware Vision Transformer via Debiased Self-Attention [12.406960223371959]
脱バイアス自己注意(Debiased Self-Attention, DSA)は、視覚変換器(ViT)を強制し、バイアス軽減のための感度ラベルと相関する刺激的な特徴を排除するフェアネススルー盲検アプローチである。
本フレームワークは,目標予測性能を損なうことなく,複数の予測タスクに対する事前作業よりも公平性を保証する。
論文 参考訳(メタデータ) (2023-01-31T17:44:59Z) - Semi-supervised Vision Transformers at Scale [93.0621675558895]
視覚変換器(ViT)のための半教師あり学習(SSL)について検討する。
我々は、最初のun/self教師付き事前トレーニングと教師付き微調整、そして最後に半教師付き微調整からなる新しいSSLパイプラインを提案する。
提案手法はSemi-ViTと呼ばれ,半教師付き分類設定においてCNNと同等あるいは同等の性能を達成している。
論文 参考訳(メタデータ) (2022-08-11T08:11:54Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。