Fugu-MT 論文翻訳(概要): Why Should Adversarial Perturbations be Imperceptible? Rethink the Research Paradigm in Adversarial NLP

論文の概要: Why Should Adversarial Perturbations be Imperceptible? Rethink the Research Paradigm in Adversarial NLP

arxiv url: http://arxiv.org/abs/2210.10683v1
Date: Wed, 19 Oct 2022 15:53:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 13:45:57.277572
Title: Why Should Adversarial Perturbations be Imperceptible? Rethink the Research Paradigm in Adversarial NLP
Title（参考訳）: 対人摂動はなぜ受容できないのか? 敵NLP研究パラダイムの再考
Authors: Yangyi Chen, Hongcheng Gao, Ganqu Cui, Fanchao Qi, Longtao Huang, Zhiyuan Liu and Maosong Sun
Abstract要約: セキュリティシナリオにおけるテキスト敵検体の研究パラダイムを再考する。最初に、セキュリティデータセットコレクションのAdvbenchを収集し、処理し、リリースします。次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるルールに基づく簡単な手法を提案する。
参考スコア（独自算出の注目度）: 83.66405397421907
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Textual adversarial samples play important roles in multiple subfields of NLP research, including security, evaluation, explainability, and data augmentation. However, most work mixes all these roles, obscuring the problem definitions and research goals of the security role that aims to reveal the practical concerns of NLP models. In this paper, we rethink the research paradigm of textual adversarial samples in security scenarios. We discuss the deficiencies in previous work and propose our suggestions that the research on the Security-oriented adversarial NLP (SoadNLP) should: (1) evaluate their methods on security tasks to demonstrate the real-world concerns; (2) consider real-world attackers' goals, instead of developing impractical methods. To this end, we first collect, process, and release a security datasets collection Advbench. Then, we reformalize the task and adjust the emphasis on different goals in SoadNLP. Next, we propose a simple method based on heuristic rules that can easily fulfill the actual adversarial goals to simulate real-world attack methods. We conduct experiments on both the attack and the defense sides on Advbench. Experimental results show that our method has higher practical value, indicating that the research paradigm in SoadNLP may start from our new benchmark. All the code and data of Advbench can be obtained at \url{https://github.com/thunlp/Advbench}.
Abstract（参考訳）: テキスト逆数サンプルは、セキュリティ、評価、説明可能性、データ拡張など、NLP研究の複数のサブフィールドにおいて重要な役割を果たす。しかしながら、ほとんどの研究は、NLPモデルの実用上の懸念を明らかにすることを目的としたセキュリティロールの課題定義と研究目標を隠蔽し、これらの役割を混ぜ合わせている。本稿では,セキュリティシナリオにおけるテキスト敵対サンプルの研究パラダイムを再考する。先行研究における欠陥を考察し,セキュリティ指向の敵対的nlp (soadnlp) に関する研究について,(1)実世界の懸念を示すためのセキュリティタスクにおける手法の評価,(2)非実用的手法の開発ではなく,実世界の攻撃者の目標を検討することを提案する。この目的のために、私たちは最初にセキュリティデータセットコレクションAdvbenchを収集し、処理し、リリースします。そして,タスクを再構築し,SoadNLPの異なる目標に重点を置く。次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるヒューリスティックルールに基づく簡単な手法を提案する。我々はアドベンチの攻撃側と防御側の両方で実験を行う。実験結果から,SoadNLPにおける研究パラダイムは,新たなベンチマークから始める可能性が示唆された。 Advbenchのコードとデータは、 \url{https://github.com/thunlp/Advbench}で取得できる。

関連論文リスト

LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文参考訳（メタデータ） (2025-02-14T08:42:43Z)
Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文参考訳（メタデータ） (2025-01-30T18:02:15Z)
The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文参考訳（メタデータ） (2024-11-13T07:57:19Z)
Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey [7.945893812374361]
本研究の目的は,攻撃設定に関する共通懸念を解消し,研究課題を正式に確立することである。具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。最後に,この分野の発展に寄与する可能性のある今後の研究の方向性について概説する。
論文参考訳（メタデータ） (2024-09-26T17:55:22Z)
A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication [15.879482578829489]
深層生成モデルは様々なコンピュータビジョンアプリケーションで顕著な性能を示した。これらのモデルは、誤情報、偽造、著作権侵害などの悪意ある目的のために使用されることがある。本稿では,AI生成したビジュアルメディアに対する防衛研究の体系的かつタイムリーなレビューを行う。
論文参考訳（メタデータ） (2024-07-15T09:46:02Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。 PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文参考訳（メタデータ） (2023-07-05T08:29:31Z)
Scenario-Agnostic Zero-Trust Defense with Explainable Threshold Policy: A Meta-Learning Approach [20.11993437283895]
本稿では,部分観測可能なマルコフ決定プロセス(POMDP)と一次メタラーニングに基づくシナリオに依存しないゼロトラスト防御を提案する。ケーススタディと実世界の攻撃を使って結果を裏付ける。
論文参考訳（メタデータ） (2023-03-06T18:35:34Z)
Measuring Equality in Machine Learning Security Defenses: A Case Study in Speech Recognition [56.69875958980474]
この研究は、学習したシステムを守るためのアプローチと、異なるサブ人口間でのセキュリティ防衛がパフォーマンス上の不平等をもたらす方法を検討する。提案された多くの手法は、虚偽の拒絶やロバストネストレーニングの不平等といった直接的な害を引き起こす可能性がある。本稿では, ランダム化スムースメントとニューラルリジェクションの2つの防御法の比較を行い, マイノリティ集団のサンプリング機構により, ランダム化スムースメントがより公平であることを見出した。
論文参考訳（メタデータ） (2023-02-17T16:19:26Z)
A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文参考訳（メタデータ） (2022-06-17T02:29:23Z)
Opportunities and Challenges in Deep Learning Adversarial Robustness: A Survey [1.8782750537161614]
本稿では,機械学習アルゴリズムの安全性を保証するために,強靭に訓練されたアルゴリズムを実装するための戦略について検討する。我々は、敵の攻撃と防衛を分類し、ロバスト最適化問題をmin-max設定で定式化し、それを3つのサブカテゴリに分類する。
論文参考訳（メタデータ） (2020-07-01T21:00:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。