論文の概要: Selecting Models based on the Risk of Damage Caused by Adversarial
Attacks
- arxiv url: http://arxiv.org/abs/2301.12151v1
- Date: Sat, 28 Jan 2023 10:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:47:46.411585
- Title: Selecting Models based on the Risk of Damage Caused by Adversarial
Attacks
- Title(参考訳): 敵の攻撃による損害リスクに基づくモデルの選択
- Authors: Jona Klemenc, Holger Trittenbach
- Abstract要約: 規制、法的責任、社会的懸念は、安全およびセキュリティクリティカルなアプリケーションにおけるAIの採用に挑戦する。
重要な懸念の1つは、敵が検出されずにモデル予測を操作することで害を引き起こす可能性があることである。
本稿では,敵攻撃による被害の確率をモデル化し,統計的に推定する手法を提案する。
- 参考スコア(独自算出の注目度): 2.969705152497174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regulation, legal liabilities, and societal concerns challenge the adoption
of AI in safety and security-critical applications. One of the key concerns is
that adversaries can cause harm by manipulating model predictions without being
detected. Regulation hence demands an assessment of the risk of damage caused
by adversaries. Yet, there is no method to translate this high-level demand
into actionable metrics that quantify the risk of damage.
In this article, we propose a method to model and statistically estimate the
probability of damage arising from adversarial attacks. We show that our
proposed estimator is statistically consistent and unbiased. In experiments, we
demonstrate that the estimation results of our method have a clear and
actionable interpretation and outperform conventional metrics. We then show how
operators can use the estimation results to reliably select the model with the
lowest risk.
- Abstract(参考訳): 規制、法的責任、社会的懸念は、安全およびセキュリティクリティカルなアプリケーションにおけるAIの採用に挑戦する。
重要な懸念の1つは、敵が検出されずにモデル予測を操作することで害を引き起こす可能性があることである。
そのため、規制は敵による損害のリスクの評価を要求する。
しかし、この高いレベルの需要を損害のリスクを定量化する実行可能な指標に変換する方法は存在しない。
本稿では,敵攻撃による被害の確率をモデル化し,統計的に推定する手法を提案する。
提案した推定器は統計的に一貫し, 偏りがないことを示す。
実験では,提案手法の計算結果が明確で動作可能な解釈であり,従来の指標よりも優れていることを示す。
次に、オペレーターが推定結果を使って最小のリスクでモデルを確実に選択する方法を示す。
関連論文リスト
- Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
本研究では,ラベル付き類似実験を微調整した予測モデルを用いて,ラベル付き実結果を用いた対象実験の因果推論に焦点をあてる。
まず,経験的リスク最小化(ERM)による実結果推定は,対象個体群に対して有効な因果推論を導出できない可能性があることを示す。
本稿では,実証的リスク最小化法(DEM)を提案する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Mitigating optimistic bias in entropic risk estimation and optimization with an application to insurance [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを説明するために広く使用されている。
経験的エントロピーリスク推定器のバイアスを軽減するために, 強く一貫したブートストラップ手法を提案する。
当社の手法は、住宅所有者に対してより高い(そしてより正確な)プレミアムを示唆している。
論文 参考訳(メタデータ) (2024-09-30T04:02:52Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - On the Impact of Uncertainty and Calibration on Likelihood-Ratio Membership Inference Attacks [42.18575921329484]
我々は,情報理論の枠組みを用いて,最先端の確率比攻撃(LiRA)の性能を解析する。
我々は、MIAの有効性に対する不確実性と校正の影響についての洞察を提供することを目的として、MIA敵の利点に基づいて境界を導出する。
論文 参考訳(メタデータ) (2024-02-16T13:41:18Z) - Adversarial Attacks Against Uncertainty Quantification [10.655660123083607]
この研究は、攻撃者が依然として不確実性推定を操作することに興味を持つ異なる敵シナリオに焦点を当てる。
特に、アウトプットが下流モジュールや人間のオペレータによって消費される場合、機械学習モデルの使用を損なうことが目標である。
論文 参考訳(メタデータ) (2023-09-19T12:54:09Z) - Balancing detectability and performance of attacks on the control
channel of Markov Decision Processes [77.66954176188426]
マルコフ決定過程(MDPs)の制御チャネルにおける最適ステルス毒素攻撃の設計問題について検討する。
この研究は、MDPに適用された敵国・毒殺攻撃や強化学習(RL)手法に対する研究コミュニティの最近の関心に動機づけられている。
論文 参考訳(メタデータ) (2021-09-15T09:13:10Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Identifying Causal-Effect Inference Failure with Uncertainty-Aware
Models [41.53326337725239]
本稿では,不確実性推定を最先端のニューラルネットワーク手法のクラスに統合する実践的アプローチを提案する。
提案手法は,高次元データに共通する「非オーバーラップ」の状況に優雅に対処できることを示す。
正確なモデリングの不確実性は、過度に自信を持ち、潜在的に有害なレコメンデーションを与えるのを防ぐことができる。
論文 参考訳(メタデータ) (2020-07-01T00:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。