論文の概要: Breaking BERT: Gradient Attack on Twitter Sentiment Analysis for Targeted Misclassification
- arxiv url: http://arxiv.org/abs/2504.01345v1
- Date: Wed, 02 Apr 2025 04:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:44.292383
- Title: Breaking BERT: Gradient Attack on Twitter Sentiment Analysis for Targeted Misclassification
- Title(参考訳): BERTを破る: ターゲットミス分類のためのTwitterのセンシティメント分析へのグラディエント攻撃
- Authors: Akil Raj Subedi, Taniya Shah, Aswani Kumar Cherukuri, Thanos Vasilakos,
- Abstract要約: Transformers BERTの双方向表現は感情分析に広く応用されている。
BERTは敵の攻撃を受けやすい。
本稿は、Twitterの感情分析におけるそのようなモデル固有の脆弱性を精査することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Social media platforms like Twitter have increasingly relied on Natural Language Processing NLP techniques to analyze and understand the sentiments expressed in the user generated content. One such state of the art NLP model is Bidirectional Encoder Representations from Transformers BERT which has been widely adapted in sentiment analysis. BERT is susceptible to adversarial attacks. This paper aims to scrutinize the inherent vulnerabilities of such models in Twitter sentiment analysis. It aims to formulate a framework for constructing targeted adversarial texts capable of deceiving these models, while maintaining stealth. In contrast to conventional methodologies, such as Importance Reweighting, this framework core idea resides in its reliance on gradients to prioritize the importance of individual words within the text. It uses a whitebox approach to attain fine grained sensitivity, pinpointing words that exert maximal influence on the classification outcome. This paper is organized into three interdependent phases. It starts with fine-tuning a pre-trained BERT model on Twitter data. It then analyzes gradients of the model to rank words on their importance, and iteratively replaces those with feasible candidates until an acceptable solution is found. Finally, it evaluates the effectiveness of the adversarial text against the custom trained sentiment classification model. This assessment would help in gauging the capacity of the adversarial text to successfully subvert classification without raising any alarm.
- Abstract(参考訳): Twitterのようなソーシャルメディアプラットフォームは、ユーザ生成コンテンツに表現された感情を分析し理解するために、自然言語処理のNLP技術にますます依存している。
そのような最先端のNLPモデルのひとつに、感情分析に広く応用されたTransformers BERTによる双方向エンコーダ表現がある。
BERTは敵の攻撃を受けやすい。
本稿は、Twitterの感情分析におけるそのようなモデル固有の脆弱性を精査することを目的としている。
ステルスを維持しつつ、これらのモデルを欺くことのできる、標的となる敵のテキストを構築するための枠組みを定式化することを目的としている。
重要度再重み付けのような従来の手法とは対照的に、このフレームワークのコアアイデアは、テキスト内の個々の単語の重要性を優先する勾配に依存している。
ホワイトボックスアプローチを用いてきめ細かな感度を達成し、分類結果に最大影響を与える単語をピンポイントする。
本論文は3つの相互依存相に分類する。
Twitterのデータ上で、トレーニング済みのBERTモデルを微調整することから始まる。
その後、モデルの勾配を分析して、その重要性に基づいて単語をランク付けし、許容可能な解が見つかるまで、実行可能な候補を反復的に置き換える。
最後に、カスタムトレーニングされた感情分類モデルに対する敵対的テキストの有効性を評価する。
この評価は、アラームを起こさずに分類を抑えるために、敵のテキストの容量を増大させるのに役立つだろう。
関連論文リスト
- Lexicon-Based Sentiment Analysis on Text Polarities with Evaluation of Classification Models [1.342834401139078]
本研究は,レキシコン法を用いて感情分析を行い,テキストデータを用いた分類モデルの評価を行った。
語彙に基づく手法は、単語レベルでの感情と主観性の強さを識別する。
この研究は、テキストが正、負、中立とラベル付けされているというマルチクラスの問題に基づいている。
論文 参考訳(メタデータ) (2024-09-19T15:31:12Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Offensive Language and Hate Speech Detection with Deep Learning and
Transfer Learning [1.77356577919977]
我々は、ツイートを自動的に3つのクラスに分類するアプローチを提案する。
我々は、テキスト分類、感情チェック、テキストデータ拡張を含む主要な機能を含むクラスモジュールを作成する。
論文 参考訳(メタデータ) (2021-08-06T20:59:47Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - ShufText: A Simple Black Box Approach to Evaluate the Fragility of Text
Classification Models [0.0]
CNN、LSTM、Transformersに基づくディープラーニングアプローチは、テキスト分類における事実上のアプローチである。
これらのシステムは、分類に有用なテキストに現れる重要な単語に過度に依存していることを示す。
論文 参考訳(メタデータ) (2021-01-30T15:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。