論文の概要: No Query, No Access
- arxiv url: http://arxiv.org/abs/2505.07258v1
- Date: Mon, 12 May 2025 06:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.274643
- Title: No Query, No Access
- Title(参考訳): クエリなし、アクセスなし
- Authors: Wenqiang Wang, Siyuan Liang, Yangshijie Zhang, Xiaojun Jia, Hao Lin, Xiaochun Cao,
- Abstract要約: 被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
- 参考スコア(独自算出の注目度): 50.18709429731724
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Textual adversarial attacks mislead NLP models, including Large Language Models (LLMs), by subtly modifying text. While effective, existing attacks often require knowledge of the victim model, extensive queries, or access to training data, limiting real-world feasibility. To overcome these constraints, we introduce the \textbf{Victim Data-based Adversarial Attack (VDBA)}, which operates using only victim texts. To prevent access to the victim model, we create a shadow dataset with publicly available pre-trained models and clustering methods as a foundation for developing substitute models. To address the low attack success rate (ASR) due to insufficient information feedback, we propose the hierarchical substitution model design, generating substitute models to mitigate the failure of a single substitute model at the decision boundary. Concurrently, we use diverse adversarial example generation, employing various attack methods to generate and select the adversarial example with better similarity and attack effectiveness. Experiments on the Emotion and SST5 datasets show that VDBA outperforms state-of-the-art methods, achieving an ASR improvement of 52.08\% while significantly reducing attack queries to 0. More importantly, we discover that VDBA poses a significant threat to LLMs such as Qwen2 and the GPT family, and achieves the highest ASR of 45.99% even without access to the API, confirming that advanced NLP models still face serious security risks. Our codes can be found at https://anonymous.4open.science/r/VDBA-Victim-Data-based-Adversarial-Attack-36EC/
- Abstract(参考訳): テキスト敵はテキストを微調整することで、LLM(Large Language Models)を含むNLPモデルの誤解を招く。
効果はあるが、既存の攻撃では、被害者モデル、広範囲なクエリ、トレーニングデータへのアクセスといった知識が必要であり、現実の実現可能性を制限する。
これらの制約を克服するために、被害者のテキストのみを使用する「textbf{Victim Data-based Adversarial Attack (VDBA)」を導入する。
被害者モデルへのアクセスを防止するため、代替モデルを開発するための基盤として、公開されている事前訓練モデルとクラスタリング手法を用いたシャドウデータセットを作成する。
情報フィードバック不足による低攻撃成功率(ASR)に対処するため,決定境界における単一代用モデルの故障を軽減するための代用モデルを生成する階層的代用モデル設計を提案する。
同時に,様々な攻撃手法を用いて,類似性が向上し,攻撃効率が向上した攻撃例を生成し,選択する。
EmotionとSST5データセットの実験では、VDBAは最先端の手法よりも優れており、ASRの改善は52.08\%であり、攻撃クエリを0.5%に大幅に削減している。
さらに重要なのは、VDBAがQwen2やGPTファミリのようなLLMに重大な脅威をもたらし、APIにアクセスしなくても最高で45.99%のASRを達成し、先進的なNLPモデルが深刻なセキュリティリスクに直面していることを確認することだ。
我々のコードはhttps://anonymous.4open.science/r/VDBA-Victim-Data-based-Adversarial-Attack-36EC/にある。
関連論文リスト
- Adaptive Domain Inference Attack with Concept Hierarchy [4.772368796656325]
最もよく知られているモデルターゲットアタックは、アタッカーがアプリケーションドメインを学んだり、データの分散を訓練したと仮定する。
モデルAPIからドメイン情報を取り除くことは、これらの攻撃からモデルを保護することができるか?
提案した適応的ドメイン推論攻撃(ADI)は、トレーニングデータの関連するサブセットを評価できることを示す。
論文 参考訳(メタデータ) (2023-12-22T22:04:13Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - SCME: A Self-Contrastive Method for Data-free and Query-Limited Model
Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。
本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T10:41:45Z) - Fault Injection and Safe-Error Attack for Extraction of Embedded Neural Network Models [1.2499537119440245]
モノのインターネット(IoT)における32ビットマイクロコントローラの組み込みディープニューラルネットワークモデルに焦点をあてる。
攻撃を成功させるためのブラックボックス手法を提案する。
古典的畳み込みニューラルネットワークでは、1500個の入力で最も重要なビットの少なくとも90%を回復することに成功した。
論文 参考訳(メタデータ) (2023-08-31T13:09:33Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。