論文の概要: SoK: Unintended Interactions among Machine Learning Defenses and Risks
- arxiv url: http://arxiv.org/abs/2312.04542v1
- Date: Thu, 7 Dec 2023 18:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:47:26.468228
- Title: SoK: Unintended Interactions among Machine Learning Defenses and Risks
- Title(参考訳): SoK: マシンラーニングの防御とリスク間の意図しないインタラクション
- Authors: Vasisht Duddu, Sebastian Szyller, N. Asokan
- Abstract要約: 過度に適合し、意図しない相互作用を弱体化させるという予想に基づく枠組みを提案する。
2つの未探索相互作用の予想に我々のフレームワークを使用し、我々の予想を実証的に検証する。
- 参考スコア(独自算出の注目度): 15.75862757868992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) models cannot neglect risks to security, privacy, and
fairness. Several defenses have been proposed to mitigate such risks. When a
defense is effective in mitigating one risk, it may correspond to increased or
decreased susceptibility to other risks. Existing research lacks an effective
framework to recognize and explain these unintended interactions. We present
such a framework, based on the conjecture that overfitting and memorization
underlie unintended interactions. We survey existing literature on unintended
interactions, accommodating them within our framework. We use our framework to
conjecture on two previously unexplored interactions, and empirically validate
our conjectures.
- Abstract(参考訳): 機械学習(ML)モデルは、セキュリティ、プライバシ、公正性のリスクを無視することはできない。
このようなリスクを軽減するため、いくつかの防衛策が提案されている。
防衛が1つのリスクの軽減に有効である場合、他のリスクに対する感受性の増大または低下に対応できる。
既存の研究には、意図しない相互作用を認識し説明するための効果的な枠組みが欠けている。
このような枠組みは、過剰適合と暗記が意図しない相互作用をもたらすという予想に基づくものである。
我々は、意図しない相互作用に関する既存の文献を調査し、フレームワーク内でそれらを収容する。
2つの未探索相互作用の予想に我々のフレームワークを使用し、我々の予想を実証的に検証する。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses [42.136793654338106]
モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。
我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:19:25Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - A Security Risk Taxonomy for Prompt-Based Interaction With Large Language Models [5.077431021127288]
本稿では,大規模言語モデル(LLM)によるセキュリティリスクに着目し,現在の研究のギャップに対処する。
我々の研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類を提案し,一般的に使用されている機密性,完全性,可用性(CIA)3つのトライアドと並行して,ターゲットタイプと攻撃タイプによる攻撃を分類する。
論文 参考訳(メタデータ) (2023-11-19T20:22:05Z) - Conflicting Interactions Among Protections Mechanisms for Machine
Learning Models [15.047412609389983]
MLモデルは様々な攻撃の標的となっている。
セキュリティとプライバシの交差点における研究、そしてMLは繁栄している。
特定の関心事に最適な解は、他の関心事に対処しようとする解と負に相互作用することがある。
論文 参考訳(メタデータ) (2022-07-05T12:18:06Z) - Towards A Critical Evaluation of Robustness for Deep Learning Backdoor
Countermeasures [13.56551253289911]
既存のバックドア対策のロバスト性を,3つの有効なモデル検査に焦点をあてて批判的に検討する。
これら3つの対策は、それぞれの脅威モデルの下でうまく機能すると主張しているが、本質的に未調査の非破壊事例がある。
本研究は, バックドア対策の堅牢性を徹底的に評価することの必要性を強調した。
論文 参考訳(メタデータ) (2022-04-13T09:50:17Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Adversarially Robust Learning with Unknown Perturbation Sets [37.13850246542325]
本研究では,未知の摂動集合に対する逆例に頑健な予測器の学習問題について検討する。
我々は,要求される相互作用の数,あるいは攻撃成功数について,サンプルの複雑さと上および下限の上限を求める。
論文 参考訳(メタデータ) (2021-02-03T17:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。