論文の概要: Why Should Adversarial Perturbations be Imperceptible? Rethink the
Research Paradigm in Adversarial NLP
- arxiv url: http://arxiv.org/abs/2210.10683v1
- Date: Wed, 19 Oct 2022 15:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:45:57.277572
- Title: Why Should Adversarial Perturbations be Imperceptible? Rethink the
Research Paradigm in Adversarial NLP
- Title(参考訳): 対人摂動はなぜ受容できないのか?
敵NLP研究パラダイムの再考
- Authors: Yangyi Chen, Hongcheng Gao, Ganqu Cui, Fanchao Qi, Longtao Huang,
Zhiyuan Liu and Maosong Sun
- Abstract要約: セキュリティシナリオにおけるテキスト敵検体の研究パラダイムを再考する。
最初に、セキュリティデータセットコレクションのAdvbenchを収集し、処理し、リリースします。
次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるルールに基づく簡単な手法を提案する。
- 参考スコア(独自算出の注目度): 83.66405397421907
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Textual adversarial samples play important roles in multiple subfields of NLP
research, including security, evaluation, explainability, and data
augmentation. However, most work mixes all these roles, obscuring the problem
definitions and research goals of the security role that aims to reveal the
practical concerns of NLP models. In this paper, we rethink the research
paradigm of textual adversarial samples in security scenarios. We discuss the
deficiencies in previous work and propose our suggestions that the research on
the Security-oriented adversarial NLP (SoadNLP) should: (1) evaluate their
methods on security tasks to demonstrate the real-world concerns; (2) consider
real-world attackers' goals, instead of developing impractical methods. To this
end, we first collect, process, and release a security datasets collection
Advbench. Then, we reformalize the task and adjust the emphasis on different
goals in SoadNLP. Next, we propose a simple method based on heuristic rules
that can easily fulfill the actual adversarial goals to simulate real-world
attack methods. We conduct experiments on both the attack and the defense sides
on Advbench. Experimental results show that our method has higher practical
value, indicating that the research paradigm in SoadNLP may start from our new
benchmark. All the code and data of Advbench can be obtained at
\url{https://github.com/thunlp/Advbench}.
- Abstract(参考訳): テキスト逆数サンプルは、セキュリティ、評価、説明可能性、データ拡張など、NLP研究の複数のサブフィールドにおいて重要な役割を果たす。
しかしながら、ほとんどの研究は、NLPモデルの実用上の懸念を明らかにすることを目的としたセキュリティロールの課題定義と研究目標を隠蔽し、これらの役割を混ぜ合わせている。
本稿では,セキュリティシナリオにおけるテキスト敵対サンプルの研究パラダイムを再考する。
先行研究における欠陥を考察し,セキュリティ指向の敵対的nlp (soadnlp) に関する研究について,(1)実世界の懸念を示すためのセキュリティタスクにおける手法の評価,(2)非実用的手法の開発ではなく,実世界の攻撃者の目標を検討することを提案する。
この目的のために、私たちは最初にセキュリティデータセットコレクションAdvbenchを収集し、処理し、リリースします。
そして,タスクを再構築し,SoadNLPの異なる目標に重点を置く。
次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるヒューリスティックルールに基づく簡単な手法を提案する。
我々はアドベンチの攻撃側と防御側の両方で実験を行う。
実験結果から,SoadNLPにおける研究パラダイムは,新たなベンチマークから始める可能性が示唆された。
Advbenchのコードとデータは、 \url{https://github.com/thunlp/Advbench}で取得できる。
関連論文リスト
- Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey [7.945893812374361]
近年の研究では、ファインチューニング・アズ・ア・サービス・ビジネスモデルが深刻な安全上の懸念を浮き彫りにしている。
有害な微調整攻撃として知られるこの攻撃は、コミュニティの間で幅広い研究の関心を集めている。
本稿では,有害な微調整の3つの側面,すなわちアタック・セッティング,ディフェンス・デザイン,評価方法論について概観する。
論文 参考訳(メタデータ) (2024-09-26T17:55:22Z) - A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication [15.879482578829489]
深層生成モデルは様々なコンピュータビジョンアプリケーションで顕著な性能を示した。
これらのモデルは、誤情報、偽造、著作権侵害などの悪意ある目的のために使用されることがある。
本稿では,AI生成したビジュアルメディアに対する防衛研究の体系的かつタイムリーなレビューを行う。
論文 参考訳(メタデータ) (2024-07-15T09:46:02Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Scenario-Agnostic Zero-Trust Defense with Explainable Threshold Policy:
A Meta-Learning Approach [20.11993437283895]
本稿では,部分観測可能なマルコフ決定プロセス(POMDP)と一次メタラーニングに基づくシナリオに依存しないゼロトラスト防御を提案する。
ケーススタディと実世界の攻撃を使って結果を裏付ける。
論文 参考訳(メタデータ) (2023-03-06T18:35:34Z) - Measuring Equality in Machine Learning Security Defenses: A Case Study
in Speech Recognition [56.69875958980474]
この研究は、学習したシステムを守るためのアプローチと、異なるサブ人口間でのセキュリティ防衛がパフォーマンス上の不平等をもたらす方法を検討する。
提案された多くの手法は、虚偽の拒絶やロバストネストレーニングの不平等といった直接的な害を引き起こす可能性がある。
本稿では, ランダム化スムースメントとニューラルリジェクションの2つの防御法の比較を行い, マイノリティ集団のサンプリング機構により, ランダム化スムースメントがより公平であることを見出した。
論文 参考訳(メタデータ) (2023-02-17T16:19:26Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。