論文の概要: Accuracy is Not Enough: Poisoning Interpretability in Federated Learning via Color Skew
- arxiv url: http://arxiv.org/abs/2511.13535v1
- Date: Mon, 17 Nov 2025 16:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.384378
- Title: Accuracy is Not Enough: Poisoning Interpretability in Federated Learning via Color Skew
- Title(参考訳): 正確さは十分ではない:カラースキューによるフェデレーション学習における解釈可能性の定量化
- Authors: Farhin Farhad Riya, Shahinul Hoque, Jinyuan Stella Sun, Olivera Kotevska,
- Abstract要約: 敵対的クライアントが適用した小さなカラー摂動は、モデルの正当性マップを意味論的に意味のある領域から切り離すことができることを示す。
我々の攻撃は、Grad-CAMの説明におけるピークアクティベーションの重複を最大35%削減し、すべての評価データセットで96%以上の分類精度を維持する。
- 参考スコア(独自算出の注目度): 1.732435844754418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As machine learning models are increasingly deployed in safety-critical domains, visual explanation techniques have become essential tools for supporting transparency. In this work, we reveal a new class of attacks that compromise model interpretability without affecting accuracy. Specifically, we show that small color perturbations applied by adversarial clients in a federated learning setting can shift a model's saliency maps away from semantically meaningful regions while keeping the prediction unchanged. The proposed saliency-aware attack framework, called Chromatic Perturbation Module, systematically crafts adversarial examples by altering the color contrast between foreground and background in a way that disrupts explanation fidelity. These perturbations accumulate across training rounds, poisoning the global model's internal feature attributions in a stealthy and persistent manner. Our findings challenge a common assumption in model auditing that correct predictions imply faithful explanations and demonstrate that interpretability itself can be an attack surface. We evaluate this vulnerability across multiple datasets and show that standard training pipelines are insufficient to detect or mitigate explanation degradation, especially in the federated learning setting, where subtle color perturbations are harder to discern. Our attack reduces peak activation overlap in Grad-CAM explanations by up to 35% while preserving classification accuracy above 96% on all evaluated datasets.
- Abstract(参考訳): 機械学習モデルが安全クリティカルな領域にますますデプロイされるにつれて、透明性をサポートするための視覚的説明技術が欠かせないツールになりつつある。
本研究では,精度に影響を与えることなく,モデル解釈可能性を損なう新たな攻撃方法を明らかにする。
具体的には,フェデレートされた学習環境において,敵対的クライアントが適用した小さなカラー摂動により,モデルの正当性マップを意味のある領域から切り離すことができ,予測を一定に保ったままにすることができることを示す。
Chromatic Perturbation Module(クロマティック・パータベーション・モジュール)と呼ばれるこの攻撃フレームワークは、前景と背景の間の色コントラストを、説明の忠実さを損なう方法で体系的に構築する。
これらの摂動は訓練ラウンドにまたがって蓄積され、世界モデルの内的特徴属性を、ステルスで永続的な方法で汚染する。
本研究は,正しい予測が忠実な説明を示唆するモデル監査における一般的な仮定に挑戦し,解釈可能性自体が攻撃面であることを示す。
我々は、この脆弱性を複数のデータセットで評価し、特に微妙な色摂動が識別しにくいフェデレーション学習環境では、標準的なトレーニングパイプラインは説明の劣化を検知または緩和するのに不十分であることを示す。
我々の攻撃は、Grad-CAMの説明におけるピークアクティベーションの重複を最大35%削減し、すべての評価データセットで96%以上の分類精度を維持する。
関連論文リスト
- ANCHOR: Integrating Adversarial Training with Hard-mined Supervised Contrastive Learning for Robust Representation Learning [1.9116784879310027]
モデルは勾配に従って学習し、データの中で最も識別しやすいパターンを特定するまで、パラメータを段階的に調整する。
モデル学習を支援する勾配は、モデルが決定を完全に変更する原因となる、小さく、受け入れがたい微調整を生成するためにも使用することができる。
これらの攻撃は、この脆弱性を悪用し、画像に小さな、知覚不能な変更を加えることで、人間の目と同じものを残しながら、モデルが間違った予測をする原因となる。
論文 参考訳(メタデータ) (2025-10-31T16:24:28Z) - Exploiting Edge Features for Transferable Adversarial Attacks in Distributed Machine Learning [54.26807397329468]
この研究は、分散ディープラーニングシステムにおいて、これまで見過ごされていた脆弱性を探究する。
中間的特徴をインターセプトする敵は、依然として深刻な脅威となる可能性がある。
本稿では,分散環境に特化して設計されたエクスプロイト戦略を提案する。
論文 参考訳(メタデータ) (2025-07-09T20:09:00Z) - Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Improving Fairness using Vision-Language Driven Image Augmentation [60.428157003498995]
公平性は、特に顔領域において、ディープラーニングの識別モデルを訓練する際に重要である。
モデルは、特定の特性(年齢や肌の色など)と無関係な属性(下流タスク)を関連付ける傾向がある
本稿では,これらの相関を緩和し,公平性を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T19:51:10Z) - Using Early Readouts to Mediate Featural Bias in Distillation [30.5299408494168]
ディープネットワークは、現実世界の教師付き学習タスクにおいて、突発的な特徴ラベル相関を学習する傾向がある。
本稿では,従来のネットワーク層からの表現を用いてラベルを予測しようとする新しい早期読み出し機構を提案する。
論文 参考訳(メタデータ) (2023-10-28T04:58:15Z) - Supervised Feature Compression based on Counterfactual Analysis [3.2458225810390284]
本研究は,事前学習したブラックボックスモデルの重要な決定境界を検出するために,非現実的説明を活用することを目的としている。
離散化されたデータセットを使用して、ブラックボックスモデルに似た最適な決定木をトレーニングすることができるが、解釈可能でコンパクトである。
論文 参考訳(メタデータ) (2022-11-17T21:16:14Z) - Stereopagnosia: Fooling Stereo Networks with Adversarial Perturbations [71.00754846434744]
知覚不能な加法的摂動は,差分マップを著しく変更できることを示す。
敵データ拡張に使用すると、我々の摂動はより堅牢なトレーニングされたモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2020-09-21T19:20:09Z) - Learning perturbation sets for robust machine learning [97.6757418136662]
我々は、潜在空間の制約領域上に設定された摂動を定義する条件生成器を用いる。
学習した摂動集合の質を定量的かつ質的に測定する。
我々は、学習した摂動集合を利用して、敵画像の破損や逆光の変動に対して経験的かつ確実に堅牢なモデルを訓練する。
論文 参考訳(メタデータ) (2020-07-16T16:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。