Fugu-MT 論文翻訳(概要): Rebuild and Ensemble: Exploring Defense Against Text Adversaries

論文の概要: Rebuild and Ensemble: Exploring Defense Against Text Adversaries

arxiv url: http://arxiv.org/abs/2203.14207v1
Date: Sun, 27 Mar 2022 04:41:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-29 14:10:27.774311
Title: Rebuild and Ensemble: Exploring Defense Against Text Adversaries
Title（参考訳）: Rebuild and Ensemble: テキスト管理者に対する防御を探る
Authors: Linyang Li, Demin Song, Jiehang Zeng, Ruotian Ma, Xipeng Qiu
Abstract要約: 敵対的攻撃は強い神経モデルを誤解させる可能性がある。現在の防衛方法は、置換候補がアクセス可能であると仮定している。本研究では,テキスト中の敵対的攻撃に対して,候補を知らずに防御する枠組みを提案する。
参考スコア（独自算出の注目度）: 41.3954102345996
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adversarial attacks can mislead strong neural models; as such, in NLP tasks, substitution-based attacks are difficult to defend. Current defense methods usually assume that the substitution candidates are accessible, which cannot be widely applied against adversarial attacks unless knowing the mechanism of the attacks. In this paper, we propose a \textbf{Rebuild and Ensemble} Framework to defend against adversarial attacks in texts without knowing the candidates. We propose a rebuild mechanism to train a robust model and ensemble the rebuilt texts during inference to achieve good adversarial defense results. Experiments show that our method can improve accuracy under the current strong attack methods.
Abstract（参考訳）: 敵対的攻撃は強力なニューラルモデルを誤解させる可能性があるため、NLPタスクでは置換に基づく攻撃は防御が難しい。現在の防衛方法は、置換候補がアクセス可能であり、攻撃のメカニズムを知らなければ敵攻撃に対して広く適用できないと仮定している。本稿では,テキスト中の敵の攻撃に対して,候補を知らずに防御するための \textbf{rebuild and ensemble} フレームワークを提案する。我々は,ロバストなモデルを訓練し,推論中に再構成されたテキストをアンサンブルし,良好な防御結果を得る再構築機構を提案する。実験の結果,現在の強攻撃法では精度が向上することがわかった。

関連論文リスト

Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文参考訳（メタデータ） (2025-03-04T20:25:12Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [49.13497493053742]
我々は、より現実的で強力な脅威である、人間が読める敵のプロンプトに焦点を当てている。主な貢献は,(1)映画脚本を文脈として活用し,LLMを欺くような人間可読性プロンプトを生成すること,(2)非感覚的逆接接尾辞を独立した意味のあるテキストに変換するための逆接尾辞変換,(3) p-核サンプリングによるアドブプロンプター,(3)多種多様な人間可読性逆接尾辞を生成する方法である。
論文参考訳（メタデータ） (2024-12-20T21:43:52Z)
DiffuseDef: Improved Robustness to Adversarial Attacks [38.34642687239535]
敵の攻撃は、事前訓練された言語モデルを使って構築されたシステムにとって重要な課題となる。本稿では,拡散層をエンコーダと分類器のデノイザとして組み込んだDiffuseDefを提案する。推測中、敵対的隠蔽状態はまずサンプルノイズと組み合わせられ、次に反復的に復調され、最後にアンサンブルされ、堅牢なテキスト表現が生成される。
論文参考訳（メタデータ） (2024-06-28T22:36:17Z)
MaskPure: Improving Defense Against Text Adversaries with Stochastic Purification [7.136205674624813]
コンピュータビジョン設定では、ノイズ除去処理は入力画像の浄化に有用であることが証明されている。いくつかの初期の研究は、NLP設定における敵攻撃を緩和するためにランダムノイズ化とデノイズ化の使用について検討している。我々は拡散過程にインスパイアされた入力浄化テキストの手法を拡張した。われわれの新しい手法であるMaskPureは、他の現代の防御法と比べて頑丈さを上回ったり、一致させたりします。
論文参考訳（メタデータ） (2024-06-18T21:27:13Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Adversarial Text Purification: A Large Language Model Approach for Defense [25.041109219049442]
敵の浄化は、敵の攻撃に対して分類器を保護するための防御機構である。そこで本稿では,大規模言語モデルの生成能力を生かした,新たな逆文清浄法を提案する。提案手法は,様々な分類器に対して顕著な性能を示し,攻撃時の精度を平均65%以上向上させる。
論文参考訳（メタデータ） (2024-02-05T02:36:41Z)
Language Guided Adversarial Purification [3.9931474959554496]
生成モデルを用いた対向浄化は、強い対向防御性能を示す。新しいフレームワーク、Language Guided Adversarial Purification (LGAP)は、事前訓練された拡散モデルとキャプションジェネレータを利用する。
論文参考訳（メタデータ） (2023-09-19T06:17:18Z)
Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文参考訳（メタデータ） (2022-07-21T07:51:45Z)
Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文参考訳（メタデータ） (2022-03-29T04:33:06Z)
Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文参考訳（メタデータ） (2021-06-01T07:10:54Z)
Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文参考訳（メタデータ） (2021-04-16T14:37:27Z)
Universal Adversarial Attacks with Natural Triggers for Text Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文参考訳（メタデータ） (2020-05-01T01:58:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。