論文の概要: On the Trade-Off Between Transparency and Security in Adversarial Machine Learning
- arxiv url: http://arxiv.org/abs/2511.11842v1
- Date: Fri, 14 Nov 2025 20:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.337891
- Title: On the Trade-Off Between Transparency and Security in Adversarial Machine Learning
- Title(参考訳): 対人機械学習における透明性とセキュリティのトレードオフについて
- Authors: Lucas Fenaux, Christopher Srinivasa, Florian Kerschbaum,
- Abstract要約: 本稿では,トランスファー可能な対向攻撃のレンズによるエージェントに対する透明性の戦略的効果について検討する。
転送可能な敵の例攻撃では、攻撃者は攻撃者のターゲットモデルを騙すために代理モデルを使用して入力を悪意を持って妨害する。
攻撃者は、攻撃者の判断と一致した場合、より成功している。
- 参考スコア(独自算出の注目度): 19.827079641936837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transparency and security are both central to Responsible AI, but they may conflict in adversarial settings. We investigate the strategic effect of transparency for agents through the lens of transferable adversarial example attacks. In transferable adversarial example attacks, attackers maliciously perturb their inputs using surrogate models to fool a defender's target model. These models can be defended or undefended, with both players having to decide which to use. Using a large-scale empirical evaluation of nine attacks across 181 models, we find that attackers are more successful when they match the defender's decision; hence, obscurity could be beneficial to the defender. With game theory, we analyze this trade-off between transparency and security by modeling this problem as both a Nash game and a Stackelberg game, and comparing the expected outcomes. Our analysis confirms that only knowing whether a defender's model is defended or not can sometimes be enough to damage its security. This result serves as an indicator of the general trade-off between transparency and security, suggesting that transparency in AI systems can be at odds with security. Beyond adversarial machine learning, our work illustrates how game-theoretic reasoning can uncover conflicts between transparency and security.
- Abstract(参考訳): 透明性とセキュリティはどちらもResponsible AIの中心であるが、敵の設定では競合する可能性がある。
本稿では,トランスファー可能な対向攻撃のレンズによるエージェントに対する透明性の戦略的効果について検討する。
転送可能な敵の例攻撃では、攻撃者は攻撃者のターゲットモデルを騙すために代理モデルを使用して入力を悪意を持って妨害する。
これらのモデルは防御または非防御が可能であり、どちらのプレイヤーもどちらを使うかを決定する必要がある。
181モデルにまたがる9つの攻撃を大規模に評価した結果、攻撃者はディフェンダーの判断に合致するとより成功し、それゆえ、不明瞭さはディフェンダーにとって有益であることが判明した。
ゲーム理論では,この問題をナッシュゲームとスタックルバーグゲームの両方としてモデル化し,期待される結果と比較することにより,透明性とセキュリティのトレードオフを分析する。
我々の分析では、ディフェンダーのモデルが守られているかどうかを知るだけで、セキュリティを損なうのに十分である場合があります。
この結果は、透明性とセキュリティの一般的なトレードオフの指標として機能し、AIシステムの透明性がセキュリティに反する可能性があることを示唆している。
敵対的機械学習以外にも、我々の研究は、ゲーム理論の推論が透明性とセキュリティの対立を明らかにする方法を示している。
関連論文リスト
- Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game [28.33029508522531]
悪意のある攻撃者は大規模なモデルを誘導して脱獄させ、違法なプライバシー侵害情報を含む情報を生成する。
大規模なモデルは、安全アライメントのような技術を使って悪意ある攻撃者の攻撃に対処する。
本研究では,攻撃者に対して安全に応答し,防御意図を隠蔽する,弱い防御機構を実現するためのマルチエージェント攻撃ゲーム手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T07:43:11Z) - Counter-Samples: A Stateless Strategy to Neutralize Black Box Adversarial Attacks [2.9815109163161204]
本稿では,ブラックボックス攻撃に対する新たな防御法を提案する。
入力サンプルの衛生化に依存する従来の前処理防御とは異なり、我々の戦略は攻撃プロセス自体に対処する。
我々のアプローチは最先端のブラックボックス攻撃に対して極めて効果的であり、CIFAR-10とImageNetデータセットの双方で既存の防御性能を上回っていることを実証する。
論文 参考訳(メタデータ) (2024-03-14T10:59:54Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - Adversarial Machine Learning and Defense Game for NextG Signal
Classification with Deep Learning [1.1726528038065764]
NextGシステムは、ユーザ機器の識別、物理層認証、既存ユーザの検出など、さまざまなタスクにディープニューラルネットワーク(DNN)を使用することができる。
本稿では,深層学習に基づくNextG信号分類のための攻撃と防御の相互作用を研究するゲーム理論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-22T15:13:03Z) - Simulation of Attacker Defender Interaction in a Noisy Security Game [1.967117164081002]
ノイズの多い環境で攻撃者とディフェンダー間の相互作用をシミュレートするセキュリティゲームフレームワークを導入する。
我々は,攻撃者に対して適切な仮定を行うことの重要性を示す。
攻撃的な結果に関して、偽陽性と真陽性の間には測定可能なトレードオフがある。
論文 参考訳(メタデータ) (2022-12-08T14:18:44Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Unrestricted Adversarial Attacks on ImageNet Competition [70.8952435964555]
制限のない敵攻撃は一般的で実践的な方向であるが、徹底的に研究されていない。
我々はこの競争を、より効果的に非制限の敵攻撃アルゴリズムを探索するために組織する。
論文 参考訳(メタデータ) (2021-10-17T04:27:15Z) - Adversarial Classification of the Attacks on Smart Grids Using Game
Theory and Deep Learning [27.69899235394942]
本稿では,攻撃者によるパワー測定における変動を評価するためのゲーム理論的手法を提案する。
ゼロサムゲームは、攻撃者とディフェンダーの間の相互作用をモデル化するために使用される。
論文 参考訳(メタデータ) (2021-06-06T18:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。