Fugu-MT 論文翻訳(概要): Adversarial Stylometry in the Wild: Transferable Lexical Substitution Attacks on Author Profiling

論文の概要: Adversarial Stylometry in the Wild: Transferable Lexical Substitution Attacks on Author Profiling

arxiv url: http://arxiv.org/abs/2101.11310v1
Date: Wed, 27 Jan 2021 10:42:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-01 19:28:48.959288
Title: Adversarial Stylometry in the Wild: Transferable Lexical Substitution Attacks on Author Profiling
Title（参考訳）: 野生の逆スタイロメトリー:著者のプロファイリングに関する移動可能なレキシカル置換攻撃
Authors: Chris Emmery, \'Akos K\'ad\'ar, Grzegorz Chrupa{\l}a
Abstract要約: 敵対的スタイメトグラフィーは、著者のテキストを書き換えることでそのようなモデルを攻撃しようとする。本研究は、これらの敵対的攻撃を野生に展開するためのいくつかのコンポーネントを提案する。
参考スコア（独自算出の注目度）: 13.722693312120462
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Written language contains stylistic cues that can be exploited to automatically infer a variety of potentially sensitive author information. Adversarial stylometry intends to attack such models by rewriting an author's text. Our research proposes several components to facilitate deployment of these adversarial attacks in the wild, where neither data nor target models are accessible. We introduce a transformer-based extension of a lexical replacement attack, and show it achieves high transferability when trained on a weakly labeled corpus -- decreasing target model performance below chance. While not completely inconspicuous, our more successful attacks also prove notably less detectable by humans. Our framework therefore provides a promising direction for future privacy-preserving adversarial attacks.
Abstract（参考訳）: テキスト言語には、様々な潜在的に敏感な著者情報を自動推論するために利用されるスタイル的な手がかりが含まれている。敵対的スタイメトグラフィーは、著者のテキストを書き換えることでそのようなモデルを攻撃しようとする。本研究は,データもターゲットモデルもアクセスできない野生環境において,これらの敵攻撃の展開を容易にするいくつかのコンポーネントを提案する。レキシカル交換攻撃のトランスベースの拡張を導入し、弱いラベル付きコーパスで訓練された際に高い転送性を達成し、ターゲットモデルのパフォーマンスを確率以下で低下させる。完全に目立たないわけではないが、我々のより成功した攻撃は、人間による検出が著しく少ないことも示している。したがって、我々のフレームワークは将来のプライバシー保護の敵攻撃に対して有望な方向を提供する。

関連論文リスト

AIM: Additional Image Guided Generation of Transferable Adversarial Attacks [72.24101555828256]
トランスファー可能な敵の例は、さまざまな現実世界のアプリケーションにまたがる知覚できない摂動に対するディープニューラルネットワーク(DNN)の脆弱性を強調している。本研究は,ターゲットの移動可能な攻撃に対する生成的アプローチに焦点を当てる。本稿では,汎用ジェネレータアーキテクチャに新しいプラグイン・アンド・プレイモジュールを導入し,対向トランスファビリティを向上する。
論文参考訳（メタデータ） (2025-01-02T07:06:49Z)
Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文参考訳（メタデータ） (2024-04-02T12:49:22Z)
Large Language Models Are Better Adversaries: Exploring Generative Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文参考訳（メタデータ） (2023-10-28T06:11:07Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
Streamlining Attack Tree Generation: A Fragment-Based Approach [39.157069600312774]
本稿では,公開情報セキュリティデータベースの情報を活用した,フラグメントベースのアタックグラフ生成手法を提案する。また,攻撃グラフ生成手法として,攻撃モデリングのためのドメイン固有言語を提案する。
論文参考訳（メタデータ） (2023-10-01T12:41:38Z)
In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文参考訳（メタデータ） (2022-12-20T14:06:50Z)
Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文参考訳（メタデータ） (2022-01-20T14:16:07Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文参考訳（メタデータ） (2021-04-16T14:37:27Z)
Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文参考訳（メタデータ） (2021-03-06T05:50:29Z)
Universal Adversarial Attacks with Natural Triggers for Text Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文参考訳（メタデータ） (2020-05-01T01:58:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。