論文の概要: Amulet: a Python Library for Assessing Interactions Among ML Defenses and Risks
- arxiv url: http://arxiv.org/abs/2509.12386v1
- Date: Mon, 15 Sep 2025 19:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.736541
- Title: Amulet: a Python Library for Assessing Interactions Among ML Defenses and Risks
- Title(参考訳): Amulet: MLディフェンスとリスク間のインタラクションを評価するPythonライブラリ
- Authors: Asim Waheed, Vasisht Duddu, Rui Zhang, Sebastian Szyller, N. Asokan,
- Abstract要約: セキュリティ、プライバシ、公正性のリスクをカバーしたPythonライブラリであるAMULETを紹介します。
AMULETは、未発見の意図しない相互作用を評価し、防衛と攻撃の効率を比較し、新しい攻撃と防御を組み込むのに使うことができる。
- 参考スコア(独自算出の注目度): 17.355124992703544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ML models are susceptible to risks to security, privacy, and fairness. Several defenses are designed to protect against their intended risks, but can inadvertently affect susceptibility to other unrelated risks, known as unintended interactions. Several jurisdictions are preparing ML regulatory frameworks that require ML practitioners to assess the susceptibility of ML models to different risks. A library for valuating unintended interactions that can be used by (a) practitioners to evaluate unintended interactions at scale prior to model deployment and (b) researchers to design defenses which do not suffer from an unintended increase in unrelated risks. Ideally, such a library should be i) comprehensive by including representative attacks, defenses and metrics for different risks, ii) extensible to new modules due to its modular design, iii) consistent with a user-friendly API template for inputs and outputs, iv) applicable to evaluate previously unexplored unintended interactions. We present AMULET, a Python library that covers risks to security, privacy, and fairness, which satisfies all these requirements. AMULET can be used to evaluate unexplored unintended interactions, compare effectiveness between defenses or attacks, and include new attacks and defenses.
- Abstract(参考訳): MLモデルは、セキュリティ、プライバシ、公平性のリスクに影響を受けやすい。
いくつかの防衛は意図したリスクから保護するために設計されているが、意図しない相互作用として知られる他の無関係なリスクへの感受性に必然的に影響を及ぼす可能性がある。
いくつかの管轄区域は、ML実践者が異なるリスクに対するMLモデルの感受性を評価することを要求するML規制フレームワークを準備している。
使用可能な意図しないインタラクションを評価するライブラリ
(a)モデル展開に先立って大規模に意図しない相互作用を評価する実践者
ロ 意図しない無関係なリスクの増加に苦しむことのない防衛を設計する研究者。
理想的には、そのような図書館は、あるべきである
一 異なるリスクに対する代表的攻撃、防衛及び指標を含むことによる包括的
二 モジュール設計のため新モジュールに拡張可能であること。
三 入力及び出力のためのユーザフレンドリーなAPIテンプレートと整合すること。
四 未発見の意図しない相互作用を評価すること。
セキュリティ、プライバシ、公正性のリスクをカバーしたPythonライブラリであるAMULETを紹介します。
AMULETは、未発見の意図しない相互作用を評価し、防衛と攻撃の効率を比較し、新しい攻撃と防御を組み込むのに使うことができる。
関連論文リスト
- A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives [65.3369988566853]
近年の研究では、敵が対象モデルの機能を複製できることが示されている。
モデル抽出攻撃は知的財産権、プライバシー、システムのセキュリティに脅威をもたらす。
本稿では,攻撃機構,防衛手法,計算環境に応じてMEAを分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-08-20T19:49:59Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - SoK: Unintended Interactions among Machine Learning Defenses and Risks [14.021381432040057]
過度に適合し、意図しない相互作用を弱体化させるという予想に基づく枠組みを提案する。
2つの未探索相互作用の予想に我々のフレームワークを使用し、我々の予想を実証的に検証する。
論文 参考訳(メタデータ) (2023-12-07T18:57:36Z) - A Security Risk Taxonomy for Prompt-Based Interaction With Large Language Models [5.077431021127288]
本稿では,大規模言語モデル(LLM)によるセキュリティリスクに着目し,現在の研究のギャップに対処する。
我々の研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類を提案し,一般的に使用されている機密性,完全性,可用性(CIA)3つのトライアドと並行して,ターゲットタイプと攻撃タイプによる攻撃を分類する。
論文 参考訳(メタデータ) (2023-11-19T20:22:05Z) - Conflicting Interactions Among Protections Mechanisms for Machine
Learning Models [15.047412609389983]
MLモデルは様々な攻撃の標的となっている。
セキュリティとプライバシの交差点における研究、そしてMLは繁栄している。
特定の関心事に最適な解は、他の関心事に対処しようとする解と負に相互作用することがある。
論文 参考訳(メタデータ) (2022-07-05T12:18:06Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。