論文の概要: Subverting Fair Image Search with Generative Adversarial Perturbations
- arxiv url: http://arxiv.org/abs/2205.02414v2
- Date: Fri, 6 May 2022 19:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 12:51:10.498121
- Title: Subverting Fair Image Search with Generative Adversarial Perturbations
- Title(参考訳): 対向摂動による公平な画像検索の変換
- Authors: Avijit Ghosh, Matthew Jagielski, Christo Wilson
- Abstract要約: 本稿では,最先端の公正な画像検索エンジンを攻撃するケーススタディを提案する。
これらの混乱は、公正に再ランク付けされたアルゴリズムが、敵対するサブ人口からの人々を含む画像のランクを不当に向上させようとする。
我々は、我々の攻撃が多数の変数に対して堅牢であること、検索結果の関連性にほとんど影響を与えないこと、そして厳密な脅威モデルの下で成功することを実証した。
- 参考スコア(独自算出の注目度): 14.669429931620689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we explore the intersection fairness and robustness in the
context of ranking: when a ranking model has been calibrated to achieve some
definition of fairness, is it possible for an external adversary to make the
ranking model behave unfairly without having access to the model or training
data? To investigate this question, we present a case study in which we develop
and then attack a state-of-the-art, fairness-aware image search engine using
images that have been maliciously modified using a Generative Adversarial
Perturbation (GAP) model. These perturbations attempt to cause the fair
re-ranking algorithm to unfairly boost the rank of images containing people
from an adversary-selected subpopulation.
We present results from extensive experiments demonstrating that our attacks
can successfully confer significant unfair advantage to people from the
majority class relative to fairly-ranked baseline search results. We
demonstrate that our attacks are robust across a number of variables, that they
have close to zero impact on the relevance of search results, and that they
succeed under a strict threat model. Our findings highlight the danger of
deploying fair machine learning algorithms in-the-wild when (1) the data
necessary to achieve fairness may be adversarially manipulated, and (2) the
models themselves are not robust against attacks.
- Abstract(参考訳): この研究では、ランク付けの文脈において、交点の公平性と堅牢性について検討する。 ランク付けモデルがある種のフェアネスの定義を達成するために校正されたとき、外部の敵が、モデルやトレーニングデータにアクセスせずに、ランキングモデルを不公平に振る舞わせることは可能か?
本稿では,GAP(Generative Adversarial Perturbation)モデルを用いて悪質に修正された画像を用いて,最先端の公正な画像検索エンジンを開発し,攻撃するケーススタディを提案する。
これらの混乱は、公正に再ランク付けされたアルゴリズムが、敵対するサブ人口からの人々を含む画像のランクを不当に向上させようとする。
本研究は,本攻撃が多数階級の人に対して,比較的ランクの高いベースライン検索結果に対して大きな不公平な優位性をもたらすことを実証する広範な実験の結果を示す。
我々は,攻撃が多数の変数に対して堅牢であること,検索結果の関連性にほとんど影響を与えないこと,厳密な脅威モデルの下で成功することを実証した。
本研究は,(1)公正性を達成するために必要なデータが逆向きに操作される場合,(2)モデル自体が攻撃に対して堅牢ではない場合に,公平な機械学習アルゴリズムを現場に展開する危険性を強調した。
関連論文リスト
- Classes Are Not Equal: An Empirical Study on Image Recognition Fairness [100.36114135663836]
我々は,クラスが等しくないことを実験的に証明し,様々なデータセットにまたがる画像分類モデルにおいて,公平性の問題が顕著であることを示した。
以上の結果から,モデルでは認識が困難であるクラスに対して,予測バイアスが大きくなる傾向が示唆された。
データ拡張および表現学習アルゴリズムは、画像分類のある程度の公平性を促進することにより、全体的なパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T07:54:50Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Fair Diffusion: Instructing Text-to-Image Generation Models on Fairness [15.059419033330126]
生成テキストから画像への展開後のバイアスを軽減するために,Fair Diffusionと呼ばれる新しい手法を提案する。
具体的には、人間の指示に基づいて、任意の方向にバイアスをシフトさせることで、例えば、アイデンティティグループに対して任意に新しい比率が得られることを示す。
この制御を導入することで、データフィルタリングや追加のトレーニングを必要とせず、公平さで生成イメージモデルを指示することができる。
論文 参考訳(メタデータ) (2023-02-07T18:25:28Z) - Order-Disorder: Imitation Adversarial Attacks for Black-box Neural
Ranking Models [48.93128542994217]
ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。
重要クエリ/候補を列挙することで,対象経路ランキングモデルを透明化し,模倣することができることを示す。
また,一対の目的関数によって強化された革新的な勾配に基づく攻撃手法を提案し,敵の引き金を発生させる。
論文 参考訳(メタデータ) (2022-09-14T09:10:07Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Revealing Unfair Models by Mining Interpretable Evidence [50.48264727620845]
機械学習の人気は、不公平なモデルがハイリスクなアプリケーションにデプロイされるリスクを高めている。
本稿では,解釈可能な証拠をマイニングすることで不公平なモデルを明らかにする新しい課題に取り組む。
本手法は,訓練されたモデルの不公平性を効果的に明らかにするために,極めて解釈可能な確固たる証拠を見出す。
論文 参考訳(メタデータ) (2022-07-12T20:03:08Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Evaluating Adversarial Attacks on ImageNet: A Reality Check on
Misclassification Classes [3.0128052969792605]
逆例がImageNetで誤って分類されるクラスの性質について検討する。
モデルからモデルへの変換性を達成した敵対的な例の71%は、トップ5クラスのうちの1つに誤って分類されている。
また、未ターゲットの誤分類の大規模なサブセットは、実際には、意味論的に類似したクラスへの誤分類である。
論文 参考訳(メタデータ) (2021-11-22T08:54:34Z) - Ethical Adversaries: Towards Mitigating Unfairness with Adversarial
Machine Learning [8.436127109155008]
個人や組織は、モデルデザイナやデプロイ担当者が責任を持つように、不公平な結果に気付き、テストし、批判します。
トレーニングデータセットから生じる不公平な表現を緩和する上で,これらのグループを支援するフレームワークを提供する。
我々のフレームワークは公平性を改善するために2つの相互運用敵に依存している。
論文 参考訳(メタデータ) (2020-05-14T10:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。