Fugu-MT 論文翻訳(概要): A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks

論文の概要: A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks

arxiv url: http://arxiv.org/abs/2206.08514v1
Date: Fri, 17 Jun 2022 02:29:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-20 13:08:08.112741
Title: A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks
Title（参考訳）: テキストバックドア学習の統一的評価--フレームワークとベンチマーク
Authors: Ganqu Cui, Lifan Yuan, Bingxiang He, Yangyi Chen, Zhiyuan Liu, Maosong Sun
Abstract要約: 我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
参考スコア（独自算出の注目度）: 72.7373468905418
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Textual backdoor attacks are a kind of practical threat to NLP systems. By injecting a backdoor in the training phase, the adversary could control model predictions via predefined triggers. As various attack and defense models have been proposed, it is of great significance to perform rigorous evaluations. However, we highlight two issues in previous backdoor learning evaluations: (1) The differences between real-world scenarios (e.g. releasing poisoned datasets or models) are neglected, and we argue that each scenario has its own constraints and concerns, thus requires specific evaluation protocols; (2) The evaluation metrics only consider whether the attacks could flip the models' predictions on poisoned samples and retain performances on benign samples, but ignore that poisoned samples should also be stealthy and semantic-preserving. To address these issues, we categorize existing works into three practical scenarios in which attackers release datasets, pre-trained models, and fine-tuned models respectively, then discuss their unique evaluation methodologies. On metrics, to completely evaluate poisoned samples, we use grammar error increase and perplexity difference for stealthiness, along with text similarity for validity. After formalizing the frameworks, we develop an open-source toolkit OpenBackdoor to foster the implementations and evaluations of textual backdoor learning. With this toolkit, we perform extensive experiments to benchmark attack and defense models under the suggested paradigm. To facilitate the underexplored defenses against poisoned datasets, we further propose CUBE, a simple yet strong clustering-based defense baseline. We hope that our frameworks and benchmarks could serve as the cornerstones for future model development and evaluations.
Abstract（参考訳）: テキストバックドア攻撃は、NLPシステムに対する実用的な脅威である。トレーニングフェーズにバックドアを注入することで、敵は事前に定義されたトリガーを通じてモデル予測を制御することができる。様々な攻撃・防御モデルが提案されているため、厳密な評価を行うことが重要である。 However, we highlight two issues in previous backdoor learning evaluations: (1) The differences between real-world scenarios (e.g. releasing poisoned datasets or models) are neglected, and we argue that each scenario has its own constraints and concerns, thus requires specific evaluation protocols; (2) The evaluation metrics only consider whether the attacks could flip the models' predictions on poisoned samples and retain performances on benign samples, but ignore that poisoned samples should also be stealthy and semantic-preserving. これらの問題に対処するために,我々は既存の作品を,攻撃者がデータセット,事前学習モデル,微調整モデルをリリースする3つの実用的なシナリオに分類し,それぞれ独自の評価手法について論じる。有毒試料の完全評価には, 文法的誤りの増加と難解性差と, テキストの類似性を有効性として用いた。フレームワークの形式化後,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。このツールキットでは,提案パラダイムの下で攻撃モデルと防御モデルをベンチマークする広範囲な実験を行う。有害なデータセットに対する未熟な防御を容易にするため、シンプルなクラスタリングベースの防御ベースラインであるcubeも提案する。私たちのフレームワークとベンチマークが将来のモデル開発と評価の基礎になることを期待しています。

関連論文リスト

DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [59.66984417026933]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文参考訳（メタデータ） (2025-07-08T03:07:15Z)
Addressing Key Challenges of Adversarial Attacks and Defenses in the Tabular Domain: A Methodological Framework for Coherence and Consistency [26.645723217188323]
本稿では,表領域における敵攻撃に適した新たな評価基準を提案する。また,サンプル内のコヒーレンスと特徴整合性を維持しつつ,依存する特徴を摂動する新しい手法を導入する。この発見は、表領域における様々な敵攻撃の強さ、限界、トレードオフに関する貴重な知見を提供する。
論文参考訳（メタデータ） (2024-12-10T09:17:09Z)
MIBench: A Comprehensive Benchmark for Model Inversion Attack and Defense [43.71365087852274]
Model Inversion (MI)攻撃は、ターゲットモデルの出力情報を活用して、プライバシに敏感なトレーニングデータを再構築することを目的としている。包括的で整合性があり、信頼性の高いベンチマークが欠如していることは、非常に大きな課題である。この致命的なギャップに対処するため、モデル反転攻撃と防御のための最初の実用的なベンチマーク(textitMIBench)を紹介した。
論文参考訳（メタデータ） (2024-10-07T16:13:49Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
MisGUIDE : Defense Against Data-Free Deep Learning Model Extraction [0.8437187555622164]
MisGUIDE(ミスGUIDE)は、ディープラーニングモデルのための2段階の防御フレームワークである。提案手法の目的は,真正クエリの精度を維持しつつ,クローンモデルの精度を下げることである。
論文参考訳（メタデータ） (2024-03-27T13:59:21Z)
Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。バックドア攻撃は訓練中にモデルに悪意ある行動を埋め込む我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文参考訳（メタデータ） (2024-03-24T18:33:15Z)
Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
言語モデル(LM)は、現実世界のアプリケーションでますます人気が高まっている。バックドア攻撃は、トリガーが存在するときに悪意のある動作が起動される深刻な脅威である。この研究は、NLPコミュニティにバックドア攻撃と対策のタイムリーなレビューを提供することを目的としている。
論文参考訳（メタデータ） (2023-09-12T08:48:38Z)
Group-based Robustness: A General Framework for Customized Robustness in the Real World [16.376584375681812]
対象とするロバスト度を計測する従来の指標は、あるソースクラスから別のターゲットクラスへの攻撃に耐えるモデルの能力を適切に反映していないことが分かりました。我々は、既存のメトリクスを補完し、特定の攻撃シナリオにおけるモデル性能を評価するのに適した新しい指標であるグループベースロバストネスを提案する。同様の成功率で、新たな損失関数を用いた回避サンプルの発見は、対象とするクラスの数に匹敵する程度に削減できることが示される。
論文参考訳（メタデータ） (2023-06-29T01:07:12Z)
Avoid Adversarial Adaption in Federated Learning by Multi-Metric Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。 FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。 MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文参考訳（メタデータ） (2023-06-06T11:44:42Z)
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-29T14:55:20Z)
Membership Inference Attacks against Language Models via Neighbourhood Comparison [45.086816556309266]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としている。近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。より現実的なシナリオでそれらの性能を調査し、参照モデルのトレーニングに使用されるデータ分布に関して非常に脆弱であることを示す。
論文参考訳（メタデータ） (2023-05-29T07:06:03Z)
A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。彼らは敵の防御を動機付ける敵の例に弱い。本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文参考訳（メタデータ） (2021-01-24T01:04:25Z)
Adversarial Attack and Defense of Structured Prediction Models [58.49290114755019]
本論文では,NLPにおける構造化予測タスクに対する攻撃と防御について検討する。構造化予測モデルの構造化出力は、入力中の小さな摂動に敏感である。本稿では,シーケンス・ツー・シーケンス・モデルを用いて,構造化予測モデルへの攻撃を学習する,新規で統一的なフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-04T15:54:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。