Fugu-MT 論文翻訳(概要): SoK: Unintended Interactions among Machine Learning Defenses and Risks

論文の概要: SoK: Unintended Interactions among Machine Learning Defenses and Risks

arxiv url: http://arxiv.org/abs/2312.04542v2
Date: Thu, 4 Apr 2024 16:43:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 19:43:34.825853
Title: SoK: Unintended Interactions among Machine Learning Defenses and Risks
Title（参考訳）: SoK: マシンラーニングの防御とリスク間の意図しないインタラクション
Authors: Vasisht Duddu, Sebastian Szyller, N. Asokan,
Abstract要約: 過度に適合し、意図しない相互作用を弱体化させるという予想に基づく枠組みを提案する。 2つの未探索相互作用の予想に我々のフレームワークを使用し、我々の予想を実証的に検証する。
参考スコア（独自算出の注目度）: 14.021381432040057
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine learning (ML) models cannot neglect risks to security, privacy, and fairness. Several defenses have been proposed to mitigate such risks. When a defense is effective in mitigating one risk, it may correspond to increased or decreased susceptibility to other risks. Existing research lacks an effective framework to recognize and explain these unintended interactions. We present such a framework, based on the conjecture that overfitting and memorization underlie unintended interactions. We survey existing literature on unintended interactions, accommodating them within our framework. We use our framework to conjecture on two previously unexplored interactions, and empirically validate our conjectures.
Abstract（参考訳）: 機械学習(ML)モデルは、セキュリティ、プライバシ、公正性のリスクを無視することはできない。このようなリスクを軽減するため、いくつかの防衛策が提案されている。防御が1つのリスクを緩和する効果がある場合、他のリスクに対する感受性が増大または低下する可能性がある。既存の研究には、意図しない相互作用を認識し説明するための効果的な枠組みが欠けている。このような枠組みは、過剰適合と暗記が意図しない相互作用を弱めるという予想に基づくものである。我々は、意図しない相互作用に関する既存の文献を調査し、フレームワーク内でそれらを収容する。 2つの未探索相互作用の予想に我々のフレームワークを使用し、我々の予想を実証的に検証する。

関連論文リスト

Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文参考訳（メタデータ） (2025-07-17T18:33:50Z)
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文参考訳（メタデータ） (2025-05-03T05:28:11Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文参考訳（メタデータ） (2025-01-30T18:02:15Z)
The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文参考訳（メタデータ） (2024-11-13T07:57:19Z)
Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文参考訳（メタデータ） (2024-08-16T17:23:43Z)
Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses [42.136793654338106]
モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
論文参考訳（メタデータ） (2024-07-02T16:19:25Z)
Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文参考訳（メタデータ） (2024-02-06T18:54:07Z)
A Security Risk Taxonomy for Prompt-Based Interaction With Large Language Models [5.077431021127288]
本稿では,大規模言語モデル(LLM)によるセキュリティリスクに着目し,現在の研究のギャップに対処する。我々の研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類を提案し,一般的に使用されている機密性,完全性,可用性(CIA)3つのトライアドと並行して,ターゲットタイプと攻撃タイプによる攻撃を分類する。
論文参考訳（メタデータ） (2023-11-19T20:22:05Z)
Measuring Equality in Machine Learning Security Defenses: A Case Study in Speech Recognition [56.69875958980474]
この研究は、学習したシステムを守るためのアプローチと、異なるサブ人口間でのセキュリティ防衛がパフォーマンス上の不平等をもたらす方法を検討する。提案された多くの手法は、虚偽の拒絶やロバストネストレーニングの不平等といった直接的な害を引き起こす可能性がある。本稿では, ランダム化スムースメントとニューラルリジェクションの2つの防御法の比較を行い, マイノリティ集団のサンプリング機構により, ランダム化スムースメントがより公平であることを見出した。
論文参考訳（メタデータ） (2023-02-17T16:19:26Z)
Conflicting Interactions Among Protections Mechanisms for Machine Learning Models [15.047412609389983]
MLモデルは様々な攻撃の標的となっている。セキュリティとプライバシの交差点における研究、そしてMLは繁栄している。特定の関心事に最適な解は、他の関心事に対処しようとする解と負に相互作用することがある。
論文参考訳（メタデータ） (2022-07-05T12:18:06Z)
Towards A Critical Evaluation of Robustness for Deep Learning Backdoor Countermeasures [13.56551253289911]
既存のバックドア対策のロバスト性を,3つの有効なモデル検査に焦点をあてて批判的に検討する。これら3つの対策は、それぞれの脅威モデルの下でうまく機能すると主張しているが、本質的に未調査の非破壊事例がある。本研究は, バックドア対策の堅牢性を徹底的に評価することの必要性を強調した。
論文参考訳（メタデータ） (2022-04-13T09:50:17Z)
Where Did You Learn That From? Surprising Effectiveness of Membership Inference Attacks Against Temporally Correlated Data in Deep Reinforcement Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-08T23:44:57Z)
Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文参考訳（メタデータ） (2021-06-17T14:23:54Z)
Adversarially Robust Learning with Unknown Perturbation Sets [37.13850246542325]
本研究では,未知の摂動集合に対する逆例に頑健な予測器の学習問題について検討する。我々は,要求される相互作用の数,あるいは攻撃成功数について,サンプルの複雑さと上および下限の上限を求める。
論文参考訳（メタデータ） (2021-02-03T17:01:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。