論文の概要: A Grey-box Text Attack Framework using Explainable AI
- arxiv url: http://arxiv.org/abs/2503.08226v1
- Date: Tue, 11 Mar 2025 09:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:59.635900
- Title: A Grey-box Text Attack Framework using Explainable AI
- Title(参考訳): 説明可能なAIを用いたGrey-boxテキスト攻撃フレームワーク
- Authors: Esther Chiramal, Kelvin Soh Boon Kai,
- Abstract要約: 我々は、説明可能なAIを使用して、人間の解釈可能な言語における複雑なブラックボックスモデル予測を理解する。
従来の敵対的テキスト攻撃は、単語置換、データ拡張技術、勾配に基づく攻撃を使用する。
モデルに関する知識を必要としない単純なGrey-box cum Black-boxアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Explainable AI is a strong strategy implemented to understand complex black-box model predictions in a human interpretable language. It provides the evidence required to execute the use of trustworthy and reliable AI systems. On the other hand, however, it also opens the door to locating possible vulnerabilities in an AI model. Traditional adversarial text attack uses word substitution, data augmentation techniques and gradient-based attacks on powerful pre-trained Bidirectional Encoder Representations from Transformers (BERT) variants to generate adversarial sentences. These attacks are generally whitebox in nature and not practical as they can be easily detected by humans E.g. Changing the word from "Poor" to "Rich". We proposed a simple yet effective Grey-box cum Black-box approach that does not require the knowledge of the model while using a set of surrogate Transformer/BERT models to perform the attack using Explainable AI techniques. As Transformers are the current state-of-the-art models for almost all Natural Language Processing (NLP) tasks, an attack generated from BERT1 is transferable to BERT2. This transferability is made possible due to the attention mechanism in the transformer that allows the model to capture long-range dependencies in a sequence. Using the power of BERT generalisation via attention, we attempt to exploit how transformers learn by attacking a few surrogate transformer variants which are all based on a different architecture. We demonstrate that this approach is highly effective to generate semantically good sentences by changing as little as one word that is not detectable by humans while still fooling other BERT models.
- Abstract(参考訳): 説明可能なAIは、人間の解釈可能な言語で複雑なブラックボックスモデルの予測を理解するために実装された強力な戦略である。
信頼できる信頼性の高いAIシステムの使用を実行するために必要な証拠を提供する。
一方、AIモデルの脆弱性を見つけるための扉も開いている。
従来の敵対的テキスト攻撃は、単語置換、データ拡張技術、および変換器(BERT)の強力な訓練済み双方向エンコーダ表現に対する勾配に基づく攻撃を用いて、敵対的な文を生成する。
これらの攻撃は本質的にはホワイトボックスであり、人間によって容易に検出できるため実用的ではない。
我々は、説明可能なAI技術を用いて攻撃を行うために、サロゲートトランスフォーマー/BERTモデルを用いてモデルに関する知識を必要としない、単純で効果的なGrey-box cum Black-boxアプローチを提案した。
Transformerは、ほぼすべての自然言語処理(NLP)タスクの最先端モデルであるため、BERT1から生成された攻撃はBERT2に転送可能である。
この転送性は、モデルがシーケンス内の長距離依存関係をキャプチャできるトランスフォーマーのアテンション機構によって実現される。
BERTの一般化の力を利用して、トランスフォーマーがどのように学習するかを、異なるアーキテクチャをベースとしたいくつかのサロゲートトランスフォーマーを攻撃して利用しようとする。
提案手法は,他のBERTモデルを騙しながら,人間によって検出できない単語を1つだけ変化させることで,意味論的に良好な文を生成するのに極めて効果的であることを示す。
関連論文リスト
- Adversarial Robustness of In-Context Learning in Transformers for Linear Regression [23.737606860443705]
本研究は,線形回帰タスクの設定に焦点をあてたテキストハイザック攻撃に対するトランスフォーマにおける文脈内学習の脆弱性について検討する。
まず,一層線形変圧器が非破壊的であり,任意の予測を出力できることを示す。
次に, 逆行訓練は, ファインタニング時にのみ適用しても, ハイジャック攻撃に対するトランスフォーマーの堅牢性を高めることを実証する。
論文 参考訳(メタデータ) (2024-11-07T21:25:58Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Adversarial Pixel Restoration as a Pretext Task for Transferable
Perturbations [54.1807206010136]
トランスファー可能な敵攻撃は、事前訓練された代理モデルと既知のラベル空間から敵を最適化し、未知のブラックボックスモデルを騙す。
本稿では,効果的なサロゲートモデルをスクラッチからトレーニングするための自己教師型代替手段として,Adversarial Pixel Restorationを提案する。
我々のトレーニングアプローチは、敵の目標を通したオーバーフィッティングを減らすmin-maxの目標に基づいています。
論文 参考訳(メタデータ) (2022-07-18T17:59:58Z) - DBIA: Data-free Backdoor Injection Attack against Transformer Networks [6.969019759456717]
CV指向トランスネットワークに対するデータフリーバックドア攻撃であるDBIAを提案する。
弊社のアプローチでは、バックドアを高い成功率で埋め込むことができ、被害者のトランスフォーマーの性能への影響も低い。
論文 参考訳(メタデータ) (2021-11-22T08:13:51Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - BERT-Defense: A Probabilistic Model Based on BERT to Combat Cognitively
Inspired Orthographic Adversarial Attacks [10.290050493635343]
敵対的攻撃は、ディープラーニングシステムの重要な盲点を露呈する。
文字レベルの攻撃は通常入力ストリームにタイプミスを挿入する。
トレーニングされていない反復的アプローチは,3ショット学習によって指導されるヒトの群集労働者と同等に実行可能であることを示す。
論文 参考訳(メタデータ) (2021-06-02T20:21:03Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Understanding Transformers for Bot Detection in Twitter [0.0]
Twitterのボット検出は、ソーシャルメディアにおける偽情報や偏見の自動拡散を緩和し、対処するための重要なタスクである。
ボットまたは人間のアカウントが生成するツイートを、そのコンテンツのみに基づいて検出するために、事前学習された言語モデルの使用について検討する。
ボット検出タスクの微調整ジェネレーティブトランスがより高い精度を生み出すことを観察する。
論文 参考訳(メタデータ) (2021-04-13T13:32:55Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。