論文の概要: Chain Association-based Attacking and Shielding Natural Language Processing Systems
- arxiv url: http://arxiv.org/abs/2411.07843v1
- Date: Tue, 12 Nov 2024 14:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:55.077910
- Title: Chain Association-based Attacking and Shielding Natural Language Processing Systems
- Title(参考訳): チェーンアソシエーションによる自然言語処理システムへの攻撃と遮蔽
- Authors: Jiacheng Huang, Long Chen,
- Abstract要約: 本稿では,自然言語処理システムに対するチェーンアソシエーションに基づく敵対攻撃を提案する。
我々は,潜在的な敵対的事例の探索空間を構築するためのアソシエーションパラダイムに基づいて,漢字の連鎖関連グラフを生成する。
我々は包括的な実験を行い、大規模言語モデルを含む先進的な自然言語処理モデルとアプリケーションが攻撃に対して脆弱であることを示します。
- 参考スコア(独自算出の注目度): 9.110868078092969
- License:
- Abstract: Association as a gift enables people do not have to mention something in completely straightforward words and allows others to understand what they intend to refer to. In this paper, we propose a chain association-based adversarial attack against natural language processing systems, utilizing the comprehension gap between humans and machines. We first generate a chain association graph for Chinese characters based on the association paradigm for building search space of potential adversarial examples. Then, we introduce an discrete particle swarm optimization algorithm to search for the optimal adversarial examples. We conduct comprehensive experiments and show that advanced natural language processing models and applications, including large language models, are vulnerable to our attack, while humans appear good at understanding the perturbed text. We also explore two methods, including adversarial training and associative graph-based recovery, to shield systems from chain association-based attack. Since a few examples that use some derogatory terms, this paper contains materials that may be offensive or upsetting to some people.
- Abstract(参考訳): アソシエーション・アソシエーション・アソシエーション(アソシエーション・アソシエーション・アソシエーション・アソシエーション・アソシエーション・アソシエーション・アソシエーション・アソシエーション・アソシエーション・アソシエーション(アソシエーション・アソシエーション・アソシエーション・アソシエーション・アソシエーション・アソシエーション・アソシエーション・アソシエーション(アソシエーション・アソシエーション)は、
本稿では,人間と機械の包括的ギャップを生かした,自然言語処理システムに対するチェーンアソシエーションに基づく敵対攻撃を提案する。
まず,漢字の連鎖関係グラフを,潜在的な逆例の探索空間を構築するための連想パラダイムに基づいて生成する。
そこで本研究では,最適対向例を探索する離散粒子群最適化アルゴリズムを提案する。
我々は包括的な実験を行い、大きな言語モデルを含む高度な自然言語処理モデルやアプリケーションが攻撃に対して脆弱であることを示し、人間は混乱したテキストを理解するのが得意である。
また,チェーンアソシエーションによる攻撃からシステムを保護するために,敵対的トレーニングと連想グラフベースの回復という2つの手法についても検討する。
軽蔑的な言葉を使う例はいくつかあるので、この論文には、一部の人々にとって不快な、あるいは動揺しているかもしれない材料が含まれている。
関連論文リスト
- Remote Timing Attacks on Efficient Language Model Inference [63.79839291641793]
タイミング差を利用してタイミングアタックをマウントできることが示される。
90%以上の精度でユーザの会話の話題を学習することができるかを示す。
相手はブースティング攻撃を利用して、オープンソースのシステム用のメッセージに置かれたPIIを回復することができる。
論文 参考訳(メタデータ) (2024-10-22T16:51:36Z) - DiffuseDef: Improved Robustness to Adversarial Attacks [38.34642687239535]
敵の攻撃は、事前訓練された言語モデルを使って構築されたシステムにとって重要な課題となる。
本稿では,拡散層をエンコーダと分類器のデノイザとして組み込んだDiffuseDefを提案する。
推測中、敵対的隠蔽状態はまずサンプルノイズと組み合わせられ、次に反復的に復調され、最後にアンサンブルされ、堅牢なテキスト表現が生成される。
論文 参考訳(メタデータ) (2024-06-28T22:36:17Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Instruct2Attack: Language-Guided Semantic Adversarial Attacks [76.83548867066561]
Instruct2Attack (I2A) は、自由形式の言語命令に従って意味のある摂動を生成する言語誘導セマンティックアタックである。
我々は最先端の潜伏拡散モデルを用いて、逆拡散過程を逆ガイドし、入力画像とテキスト命令に条件付けされた逆潜伏符号を探索する。
I2Aは、強い敵の防御の下でも最先端のディープニューラルネットワークを破ることができることを示す。
論文 参考訳(メタデータ) (2023-11-27T05:35:49Z) - Robust Conversational Agents against Imperceptible Toxicity Triggers [29.71051151620196]
我々は,会話エージェントに対する攻撃について,一貫性,関連性,流布性の観点から認識し難いものを提案する。
次に,攻撃を緩和するだけでなく,会話の流れの維持を図るような攻撃に対する防御機構を提案する。
論文 参考訳(メタデータ) (2022-05-05T01:48:39Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2021-09-09T16:16:04Z) - Bad Characters: Imperceptible NLP Attacks [16.357959724298745]
敵対的な例のクラスは、ブラックボックスの設定でテキストベースのモデルを攻撃するために使用することができる。
単一の知覚不可能なエンコーディングインジェクションでは、攻撃者は脆弱なモデルの性能を大幅に低下させることができる。
弊社の攻撃は、MicrosoftやGoogleなど、現在展開中の商用システムに対するものだ。
論文 参考訳(メタデータ) (2021-06-18T03:42:56Z) - A Context Aware Approach for Generating Natural Language Attacks [3.52359746858894]
本研究では,意味的に類似した敵対例をテキスト分類と関連タスクに組み込む攻撃戦略を提案する。
提案攻撃は,元の単語とその周囲の文脈の両方の情報を考慮し,候補語を見つける。
論文 参考訳(メタデータ) (2020-12-24T17:24:54Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。