論文の概要: Why Should Adversarial Perturbations be Imperceptible? Rethink the
Research Paradigm in Adversarial NLP
- arxiv url: http://arxiv.org/abs/2210.10683v1
- Date: Wed, 19 Oct 2022 15:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:45:57.277572
- Title: Why Should Adversarial Perturbations be Imperceptible? Rethink the
Research Paradigm in Adversarial NLP
- Title(参考訳): 対人摂動はなぜ受容できないのか?
敵NLP研究パラダイムの再考
- Authors: Yangyi Chen, Hongcheng Gao, Ganqu Cui, Fanchao Qi, Longtao Huang,
Zhiyuan Liu and Maosong Sun
- Abstract要約: セキュリティシナリオにおけるテキスト敵検体の研究パラダイムを再考する。
最初に、セキュリティデータセットコレクションのAdvbenchを収集し、処理し、リリースします。
次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるルールに基づく簡単な手法を提案する。
- 参考スコア(独自算出の注目度): 83.66405397421907
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Textual adversarial samples play important roles in multiple subfields of NLP
research, including security, evaluation, explainability, and data
augmentation. However, most work mixes all these roles, obscuring the problem
definitions and research goals of the security role that aims to reveal the
practical concerns of NLP models. In this paper, we rethink the research
paradigm of textual adversarial samples in security scenarios. We discuss the
deficiencies in previous work and propose our suggestions that the research on
the Security-oriented adversarial NLP (SoadNLP) should: (1) evaluate their
methods on security tasks to demonstrate the real-world concerns; (2) consider
real-world attackers' goals, instead of developing impractical methods. To this
end, we first collect, process, and release a security datasets collection
Advbench. Then, we reformalize the task and adjust the emphasis on different
goals in SoadNLP. Next, we propose a simple method based on heuristic rules
that can easily fulfill the actual adversarial goals to simulate real-world
attack methods. We conduct experiments on both the attack and the defense sides
on Advbench. Experimental results show that our method has higher practical
value, indicating that the research paradigm in SoadNLP may start from our new
benchmark. All the code and data of Advbench can be obtained at
\url{https://github.com/thunlp/Advbench}.
- Abstract(参考訳): テキスト逆数サンプルは、セキュリティ、評価、説明可能性、データ拡張など、NLP研究の複数のサブフィールドにおいて重要な役割を果たす。
しかしながら、ほとんどの研究は、NLPモデルの実用上の懸念を明らかにすることを目的としたセキュリティロールの課題定義と研究目標を隠蔽し、これらの役割を混ぜ合わせている。
本稿では,セキュリティシナリオにおけるテキスト敵対サンプルの研究パラダイムを再考する。
先行研究における欠陥を考察し,セキュリティ指向の敵対的nlp (soadnlp) に関する研究について,(1)実世界の懸念を示すためのセキュリティタスクにおける手法の評価,(2)非実用的手法の開発ではなく,実世界の攻撃者の目標を検討することを提案する。
この目的のために、私たちは最初にセキュリティデータセットコレクションAdvbenchを収集し、処理し、リリースします。
そして,タスクを再構築し,SoadNLPの異なる目標に重点を置く。
次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるヒューリスティックルールに基づく簡単な手法を提案する。
我々はアドベンチの攻撃側と防御側の両方で実験を行う。
実験結果から,SoadNLPにおける研究パラダイムは,新たなベンチマークから始める可能性が示唆された。
Advbenchのコードとデータは、 \url{https://github.com/thunlp/Advbench}で取得できる。
関連論文リスト
- The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey [7.945893812374361]
本研究の目的は,攻撃設定に関する共通懸念を解消し,研究課題を正式に確立することである。
具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。
最後に,この分野の発展に寄与する可能性のある今後の研究の方向性について概説する。
論文 参考訳(メタデータ) (2024-09-26T17:55:22Z) - A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication [15.879482578829489]
深層生成モデルは様々なコンピュータビジョンアプリケーションで顕著な性能を示した。
これらのモデルは、誤情報、偽造、著作権侵害などの悪意ある目的のために使用されることがある。
本稿では,AI生成したビジュアルメディアに対する防衛研究の体系的かつタイムリーなレビューを行う。
論文 参考訳(メタデータ) (2024-07-15T09:46:02Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - Scenario-Agnostic Zero-Trust Defense with Explainable Threshold Policy:
A Meta-Learning Approach [20.11993437283895]
本稿では,部分観測可能なマルコフ決定プロセス(POMDP)と一次メタラーニングに基づくシナリオに依存しないゼロトラスト防御を提案する。
ケーススタディと実世界の攻撃を使って結果を裏付ける。
論文 参考訳(メタデータ) (2023-03-06T18:35:34Z) - Measuring Equality in Machine Learning Security Defenses: A Case Study
in Speech Recognition [56.69875958980474]
この研究は、学習したシステムを守るためのアプローチと、異なるサブ人口間でのセキュリティ防衛がパフォーマンス上の不平等をもたらす方法を検討する。
提案された多くの手法は、虚偽の拒絶やロバストネストレーニングの不平等といった直接的な害を引き起こす可能性がある。
本稿では, ランダム化スムースメントとニューラルリジェクションの2つの防御法の比較を行い, マイノリティ集団のサンプリング機構により, ランダム化スムースメントがより公平であることを見出した。
論文 参考訳(メタデータ) (2023-02-17T16:19:26Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Opportunities and Challenges in Deep Learning Adversarial Robustness: A
Survey [1.8782750537161614]
本稿では,機械学習アルゴリズムの安全性を保証するために,強靭に訓練されたアルゴリズムを実装するための戦略について検討する。
我々は、敵の攻撃と防衛を分類し、ロバスト最適化問題をmin-max設定で定式化し、それを3つのサブカテゴリに分類する。
論文 参考訳(メタデータ) (2020-07-01T21:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。