論文の概要: SoK: Unintended Interactions among Machine Learning Defenses and Risks
- arxiv url: http://arxiv.org/abs/2312.04542v2
- Date: Thu, 4 Apr 2024 16:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 19:43:34.825853
- Title: SoK: Unintended Interactions among Machine Learning Defenses and Risks
- Title(参考訳): SoK: マシンラーニングの防御とリスク間の意図しないインタラクション
- Authors: Vasisht Duddu, Sebastian Szyller, N. Asokan,
- Abstract要約: 過度に適合し、意図しない相互作用を弱体化させるという予想に基づく枠組みを提案する。
2つの未探索相互作用の予想に我々のフレームワークを使用し、我々の予想を実証的に検証する。
- 参考スコア(独自算出の注目度): 14.021381432040057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) models cannot neglect risks to security, privacy, and fairness. Several defenses have been proposed to mitigate such risks. When a defense is effective in mitigating one risk, it may correspond to increased or decreased susceptibility to other risks. Existing research lacks an effective framework to recognize and explain these unintended interactions. We present such a framework, based on the conjecture that overfitting and memorization underlie unintended interactions. We survey existing literature on unintended interactions, accommodating them within our framework. We use our framework to conjecture on two previously unexplored interactions, and empirically validate our conjectures.
- Abstract(参考訳): 機械学習(ML)モデルは、セキュリティ、プライバシ、公正性のリスクを無視することはできない。
このようなリスクを軽減するため、いくつかの防衛策が提案されている。
防御が1つのリスクを緩和する効果がある場合、他のリスクに対する感受性が増大または低下する可能性がある。
既存の研究には、意図しない相互作用を認識し説明するための効果的な枠組みが欠けている。
このような枠組みは、過剰適合と暗記が意図しない相互作用を弱めるという予想に基づくものである。
我々は、意図しない相互作用に関する既存の文献を調査し、フレームワーク内でそれらを収容する。
2つの未探索相互作用の予想に我々のフレームワークを使用し、我々の予想を実証的に検証する。
関連論文リスト
- The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。
リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文 参考訳(メタデータ) (2024-08-16T17:23:43Z) - Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses [42.136793654338106]
モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。
我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:19:25Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - A Security Risk Taxonomy for Prompt-Based Interaction With Large Language Models [5.077431021127288]
本稿では,大規模言語モデル(LLM)によるセキュリティリスクに着目し,現在の研究のギャップに対処する。
我々の研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類を提案し,一般的に使用されている機密性,完全性,可用性(CIA)3つのトライアドと並行して,ターゲットタイプと攻撃タイプによる攻撃を分類する。
論文 参考訳(メタデータ) (2023-11-19T20:22:05Z) - Measuring Equality in Machine Learning Security Defenses: A Case Study
in Speech Recognition [56.69875958980474]
この研究は、学習したシステムを守るためのアプローチと、異なるサブ人口間でのセキュリティ防衛がパフォーマンス上の不平等をもたらす方法を検討する。
提案された多くの手法は、虚偽の拒絶やロバストネストレーニングの不平等といった直接的な害を引き起こす可能性がある。
本稿では, ランダム化スムースメントとニューラルリジェクションの2つの防御法の比較を行い, マイノリティ集団のサンプリング機構により, ランダム化スムースメントがより公平であることを見出した。
論文 参考訳(メタデータ) (2023-02-17T16:19:26Z) - Conflicting Interactions Among Protections Mechanisms for Machine
Learning Models [15.047412609389983]
MLモデルは様々な攻撃の標的となっている。
セキュリティとプライバシの交差点における研究、そしてMLは繁栄している。
特定の関心事に最適な解は、他の関心事に対処しようとする解と負に相互作用することがある。
論文 参考訳(メタデータ) (2022-07-05T12:18:06Z) - Towards A Critical Evaluation of Robustness for Deep Learning Backdoor
Countermeasures [13.56551253289911]
既存のバックドア対策のロバスト性を,3つの有効なモデル検査に焦点をあてて批判的に検討する。
これら3つの対策は、それぞれの脅威モデルの下でうまく機能すると主張しているが、本質的に未調査の非破壊事例がある。
本研究は, バックドア対策の堅牢性を徹底的に評価することの必要性を強調した。
論文 参考訳(メタデータ) (2022-04-13T09:50:17Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Adversarially Robust Learning with Unknown Perturbation Sets [37.13850246542325]
本研究では,未知の摂動集合に対する逆例に頑健な予測器の学習問題について検討する。
我々は,要求される相互作用の数,あるいは攻撃成功数について,サンプルの複雑さと上および下限の上限を求める。
論文 参考訳(メタデータ) (2021-02-03T17:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。