論文の概要: Who's the Evil Twin? Differential Auditing for Undesired Behavior
- arxiv url: http://arxiv.org/abs/2508.06827v1
- Date: Sat, 09 Aug 2025 04:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.568833
- Title: Who's the Evil Twin? Differential Auditing for Undesired Behavior
- Title(参考訳): 悪の双子は誰だ? 望ましくない行動に対する差別的監査
- Authors: Ishwar Balappanawar, Venkata Hasith Vattikuti, Greta Kintzley, Ronan Azimi-Mancel, Satvik Golechha,
- Abstract要約: 赤いチームは2つの類似したモデルをトレーニングします。1つは良性データのみをトレーニングし、もう1つは隠れた有害な振る舞いを含むデータに基づいてトレーニングします。
我々は、CNNを用いて、ガウスノイズ分析、モデル拡散、統合勾配、敵攻撃など、様々なブルーチーム戦略を試す。
その結果、敵攻撃に基づく手法(100%正解、ヒントを用いた予測)の精度が高く、非常に有望であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting hidden behaviors in neural networks poses a significant challenge due to minimal prior knowledge and potential adversarial obfuscation. We explore this problem by framing detection as an adversarial game between two teams: the red team trains two similar models, one trained solely on benign data and the other trained on data containing hidden harmful behavior, with the performance of both being nearly indistinguishable on the benign dataset. The blue team, with limited to no information about the harmful behaviour, tries to identify the compromised model. We experiment using CNNs and try various blue team strategies, including Gaussian noise analysis, model diffing, integrated gradients, and adversarial attacks under different levels of hints provided by the red team. Results show high accuracy for adversarial-attack-based methods (100\% correct prediction, using hints), which is very promising, whilst the other techniques yield more varied performance. During our LLM-focused rounds, we find that there are not many parallel methods that we could apply from our study with CNNs. Instead, we find that effective LLM auditing methods require some hints about the undesired distribution, which can then used in standard black-box and open-weight methods to probe the models further and reveal their misalignment. We open-source our auditing games (with the model and data) and hope that our findings contribute to designing better audits.
- Abstract(参考訳): ニューラルネットワークの隠れた振る舞いを検出することは、事前知識の最小化と潜在的な敵の難読化のために大きな課題となる。
レッドチームは2つの類似したモデルを訓練し、1つは良性データのみを訓練し、もう1つは隠れた有害な振る舞いを含むデータに基づいて訓練した。
ブルーチームは有害な振る舞いに関する情報に制限がなく、妥協されたモデルを特定しようとします。
我々は、CNNを用いて実験を行い、ガウスノイズ分析、モデル拡散、統合勾配、レッドチームが提供する様々なレベルのヒントによる敵攻撃など、様々なブルーチーム戦略を試した。
その結果、敵攻撃に基づく手法(ヒントを用いた100\%の正解予測)の精度が向上し、他の手法ではより多彩な性能が得られた。
LLMに焦点を当てたラウンドでは、CNNを用いた研究から適用できる並列手法がほとんどないことがわかった。
代わりに、有効なLCM監査手法は、望ましくない分布に関するヒントを必要としており、標準のブラックボックスやオープンウェイト手法でモデルをさらに調査し、それらの不整合を明らかにすることができる。
監査ゲーム(モデルとデータ)をオープンソースとして公開し、その結果がより良い監査設計に寄与することを願っています。
関連論文リスト
- MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness [31.603115393528746]
視覚変換器(ViT)は基本的なアーキテクチャとして登場し、現代の視覚言語モデルのバックボーンとして機能している。
本稿では,ViTの対向ロバスト性に関する体系的な研究を行い,その自己教師型事前学習における理論的相互情報(MI)解析について述べる。
自動エンコーダを用いたマスク画像モデリングにより,MIペナルティを利用した自己教師型AT法MIMIRを提案する。
論文 参考訳(メタデータ) (2023-12-08T10:50:02Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Microbial Genetic Algorithm-based Black-box Attack against Interpretable
Deep Learning Systems [16.13790238416691]
ホワイトボックス環境では、解釈可能なディープラーニングシステム(IDLS)が悪意のある操作に対して脆弱であることが示されている。
本稿では,IDLSに対するクエリ効率の高いScoreベースのブラックボックス攻撃QuScoreを提案する。
論文 参考訳(メタデータ) (2023-07-13T00:08:52Z) - Wasserstein distributional robustness of neural networks [9.79503506460041]
ディープニューラルネットワークは敵攻撃(AA)に弱いことが知られている
画像認識タスクでは、元の小さな摂動によって画像が誤分類される可能性がある。
本稿では,Wassersteinの分散ロバスト最適化(DRO)技術を用いて問題を再検討し,新しいコントリビューションを得た。
論文 参考訳(メタデータ) (2023-06-16T13:41:24Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - CrowdGuard: Federated Backdoor Detection in Federated Learning [39.58317527488534]
本稿では,フェデレートラーニングにおけるバックドア攻撃を効果的に軽減する新しい防御機構であるCrowdGuardを提案する。
CrowdGuardでは、サーバロケーションのスタック化されたクラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価結果は、CrowdGuardがさまざまなシナリオで100%正の正の正の正の負の負の負の値を達成することを示す。
論文 参考訳(メタデータ) (2022-10-14T11:27:49Z) - Instance Attack:An Explanation-based Vulnerability Analysis Framework
Against DNNs for Malware Detection [0.0]
本稿では,インスタンスベースの攻撃の概念を提案する。
我々の方式は解釈可能であり、ブラックボックス環境でも機能する。
提案手法はブラックボックス設定で動作し,その結果をドメイン知識で検証することができる。
論文 参考訳(メタデータ) (2022-09-06T12:41:20Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。