論文の概要: Adversarial Robustness of Open-source Text Classification Models and Fine-Tuning Chains
- arxiv url: http://arxiv.org/abs/2408.02963v1
- Date: Tue, 6 Aug 2024 05:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 14:59:44.440215
- Title: Adversarial Robustness of Open-source Text Classification Models and Fine-Tuning Chains
- Title(参考訳): オープンソーステキスト分類モデルとファインチューニングチェーンの逆ロバスト性
- Authors: Hao Qin, Mingyang Li, Junjie Wang, Qing Wang,
- Abstract要約: オープンソースのAIモデルと微調整チェーンは、敵攻撃のような新たなセキュリティリスクに直面している。
本稿では,超微調整による上流-下流関係によって形成される,オープンソースのAIモデルとそのチェーンの対角的堅牢性を検討することを目的とする。
- 参考スコア(独自算出の注目度): 11.379606061113348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context:With the advancement of artificial intelligence (AI) technology and applications, numerous AI models have been developed, leading to the emergence of open-source model hosting platforms like Hugging Face (HF). Thanks to these platforms, individuals can directly download and use models, as well as fine-tune them to construct more domain-specific models. However, just like traditional software supply chains face security risks, AI models and fine-tuning chains also encounter new security risks, such as adversarial attacks. Therefore, the adversarial robustness of these models has garnered attention, potentially influencing people's choices regarding open-source models. Objective:This paper aims to explore the adversarial robustness of open-source AI models and their chains formed by the upstream-downstream relationships via fine-tuning to provide insights into the potential adversarial risks. Method:We collect text classification models on HF and construct the fine-tuning chains.Then, we conduct an empirical analysis of model reuse and associated robustness risks under existing adversarial attacks from two aspects, i.e., models and their fine-tuning chains. Results:Despite the models' widespread downloading and reuse, they are generally susceptible to adversarial attack risks, with an average of 52.70% attack success rate. Moreover, fine-tuning typically exacerbates this risk, resulting in an average 12.60% increase in attack success rates. We also delve into the influence of factors such as attack techniques, datasets, and model architectures on the success rate, as well as the transitivity along the model chains.
- Abstract(参考訳): コンテキスト:人工知能(AI)技術と応用の進歩により、多くのAIモデルが開発され、Hugging Face(HF)のようなオープンソースのモデルホスティングプラットフォームが出現した。
これらのプラットフォームのおかげで、個人はモデルを直接ダウンロードして使用でき、さらにドメイン固有のモデルを構築するための微調整もできる。
しかし、従来のソフトウェアサプライチェーンがセキュリティリスクに直面しているのと同じように、AIモデルや微調整チェーンも敵攻撃のような新たなセキュリティリスクに直面している。
したがって、これらのモデルの敵対的堅牢性は注目を集め、オープンソースモデルに対する人々の選択に影響を与える可能性がある。
目的:本稿は,オープンソースAIモデルと上流-下流関係によって形成されるチェーンの敵対的堅牢性について,微調整により検討し,潜在的な敵対的リスクについて考察することを目的とする。
方法:我々はHF上のテキスト分類モデルを収集し,細調整チェーンの構築を行い,既存の敵攻撃によるモデル再利用と関連するロバストネスリスクの実証分析を行った。
結果: モデルが広くダウンロードおよび再利用されているにもかかわらず、一般的には敵の攻撃リスクに敏感であり、平均52.70%の攻撃成功率である。
さらに、微調整は一般的にこのリスクを悪化させ、平均12.60%の攻撃成功率をもたらす。
また、アタックテクニックやデータセット、モデルアーキテクチャといった要因が、成功率やモデルチェーンに沿った推移性に与える影響についても調べています。
関連論文リスト
- Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z) - Improved Membership Inference Attacks Against Language Classification Models [0.0]
分類モデルに対するメンバシップ推論攻撃を実行するための新しいフレームワークを提案する。
本手法は,単一攻撃モデルやクラスラベル毎の攻撃モデルよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2023-10-11T06:09:48Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Introducing Foundation Models as Surrogate Models: Advancing Towards
More Practical Adversarial Attacks [15.882687207499373]
箱なしの敵攻撃は、AIシステムにとってより実用的で難しいものになりつつある。
本稿では,サロゲートモデルとして基礎モデルを導入することにより,逆攻撃を下流タスクとして再放送する。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Towards automation of threat modeling based on a semantic model of
attack patterns and weaknesses [0.0]
本研究は,形式的知識基盤(モデル)の構築と利用に関する課題を考察する。
提案モデルは、様々な脅威景観を構築するために、テクニック、攻撃パターン、弱点、脆弱性の関係を学習するために使用できる。
論文 参考訳(メタデータ) (2021-12-08T11:13:47Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Model Extraction Attacks on Graph Neural Networks: Taxonomy and
Realization [40.37373934201329]
GNNモデルに対するモデル抽出攻撃について検討・開発する。
まず、GNNモデル抽出の文脈で脅威モデリングを定式化する。
次に、攻撃を実装するために、各脅威においてアクセス可能な知識を利用する詳細な方法を示す。
論文 参考訳(メタデータ) (2020-10-24T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。