Fugu-MT 論文翻訳(概要): Fairness-aware Vision Transformer via Debiased Self-Attention

論文の概要: Fairness-aware Vision Transformer via Debiased Self-Attention

arxiv url: http://arxiv.org/abs/2301.13803v2
Date: Tue, 29 Aug 2023 17:38:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-30 18:59:39.082114
Title: Fairness-aware Vision Transformer via Debiased Self-Attention
Title（参考訳）: debiased self-attentionによるフェアネス認識視覚トランスフォーマ
Authors: Yao Qiang, Chengyin Li, Prashant Khanduri, and Dongxiao Zhu
Abstract要約: Vision Transformer (ViT) は近年,コンピュータビジョン (CV) 問題の解決に多大な関心を集めている。最近の研究は、その堅牢性と説明可能性を含む、ViTの信頼性を探求している。既存のフェアネス対応アルゴリズム(主にCNN用に設計された)は、ViTではうまく動作しない。
参考スコア（独自算出の注目度）: 12.406960223371959
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision Transformer (ViT) has recently gained significant interest in solving computer vision (CV) problems due to its capability of extracting informative features and modeling long-range dependencies through the self-attention mechanism. To fully realize the advantages of ViT in real-world applications, recent works have explored the trustworthiness of ViT, including its robustness and explainability. However, another desiderata, fairness has not yet been adequately addressed in the literature. We establish that the existing fairness-aware algorithms (primarily designed for CNNs) do not perform well on ViT. This necessitates the need for developing our novel framework via Debiased Self-Attention (DSA). DSA is a fairness-through-blindness approach that enforces ViT to eliminate spurious features correlated with the sensitive attributes for bias mitigation. Notably, adversarial examples are leveraged to locate and mask the spurious features in the input image patches. In addition, DSA utilizes an attention weights alignment regularizer in the training objective to encourage learning informative features for target prediction. Importantly, our DSA framework leads to improved fairness guarantees over prior works on multiple prediction tasks without compromising target prediction performance.
Abstract（参考訳）: 視覚変換器(ViT)は,情報的特徴を抽出し,自己認識機構を通じて長距離依存をモデル化する能力により,コンピュータビジョン(CV)問題の解決に大きな関心を寄せている。実世界の応用におけるViTの利点をフルに実現するために、最近の研究は、その堅牢性と説明可能性を含む、ViTの信頼性について検討している。しかし、別のデシダータは、文学ではまだフェアネスが適切に扱われていない。既存のフェアネス対応アルゴリズム(主にCNN用に設計された)は、ViTではうまく動作しない。これは、debiased self-attention (dsa) による新しいフレームワークの開発を必要とする。 DSAは、バイアス軽減のための感度特性と相関する刺激的な特徴を排除するためにViTを強制するフェアネススルー・ブラインドネスアプローチである。特に、逆例を利用して、入力画像パッチ内のスプリアス特徴を特定し、隠蔽する。さらに、DSAはトレーニング目的の注意重み付け調整器を利用して、目標予測のための学習情報特徴を促進する。重要なことは、我々のDSAフレームワークは、目標予測性能を損なうことなく、複数の予測タスクに対する事前作業よりも公平性を保証する。

関連論文リスト

Improving vulnerability type prediction and line-level detection via adversarial training-based data augmentation and multi-task learning [10.375389754684905]
MTL(Multi-task Learning)とEDAT( Embedding-Layer-Driven Adversarial Training)を統合する統一的なアプローチを提案する。提案手法は,VTP(Vulnerability Type Prediction)タスクとLVD(Line-level Vulnerability Detection)タスクの両方において,最先端のベースラインよりも優れている。
論文参考訳（メタデータ） (2025-06-30T05:47:09Z)
Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration [1.7373859011890633]
大規模視覚言語モデル(LVLM)はマルチモーダルタスクにおいて印象的な性能を発揮するが、幻覚に悩まされることが多い。この課題に対処するために、信頼を意識する注意フレームワークを紹介します。
論文参考訳（メタデータ） (2025-05-27T17:45:21Z)
Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文参考訳（メタデータ） (2025-04-21T04:01:22Z)
Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文参考訳（メタデータ） (2024-12-19T08:51:01Z)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは信頼性公正性誤用の可能性について批判的な議論を巻き起こしました埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文参考訳（メタデータ） (2024-11-21T09:46:55Z)
Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文参考訳（メタデータ） (2024-10-21T07:44:44Z)
FairViT: Fair Vision Transformer via Adaptive Masking [12.623905443515802]
Vision Transformer (ViT) は優れた性能を発揮し、様々なコンピュータビジョンタスクにおいて有望な可能性を実証している。しかし、ほとんどの ViT ベースの作品は公平性を考慮しておらず、CNN 指向の debiased アルゴリズムを直接 ViT に適用できるかどうかは不明である。提案するFairViTは,新しい正確かつ公平なViTフレームワークである。
論文参考訳（メタデータ） (2024-07-20T08:10:37Z)
Uncertainty-boosted Robust Video Activity Anticipation [72.14155465769201]
ビデオアクティビティの予測は、ロボットビジョンから自動運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。本研究では,予測結果の信頼性を示す不確実な値を生成する,不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-29T12:31:38Z)
Interpretability-Aware Vision Transformer [13.310757078491916]
視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。そこで本研究では,モデル解釈可能性を高める新たなトレーニング手法を提案する。 IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
論文参考訳（メタデータ） (2023-09-14T21:50:49Z)
ARBEx: Attentive Feature Extraction with Reliability Balancing for Robust Facial Expression Learning [5.648318448953635]
ARBExはVision Transformerによって駆動される新しい注意的特徴抽出フレームワークである。ラベル分布とマルチヘッド自己保持機構を備えた埋め込み空間において学習可能なアンカーポイントを用いて、弱い予測に対する性能を最適化する。我々の戦略は、様々な文脈で実施された広範な実験により、現在の最先端の方法論よりも優れています。
論文参考訳（メタデータ） (2023-05-02T15:10:01Z)
Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文参考訳（メタデータ） (2023-03-23T05:17:05Z)
Function Composition in Trustworthy Machine Learning: Implementation Choices, Insights, and Questions [28.643482049799477]
本稿では,信頼感の異なる「柱」から生じる機能の構成に焦点を当てる。実世界の信頼に値する7つの次元 - 公正さと説明可能性 - に関する実験結果と新たな知見を報告する。また,複数の柱からの機能の組み合わせを促すために,作曲家ツールの進捗状況と実装選択について報告する。
論文参考訳（メタデータ） (2023-02-17T23:49:16Z)
Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文参考訳（メタデータ） (2022-04-26T17:16:32Z)
On Exploring Pose Estimation as an Auxiliary Learning Task for Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。 2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文参考訳（メタデータ） (2022-01-11T09:44:00Z)
Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文参考訳（メタデータ） (2021-03-09T19:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。