論文の概要: Robustness of Misinformation Classification Systems to Adversarial Examples Through BeamAttack
- arxiv url: http://arxiv.org/abs/2506.23661v1
- Date: Mon, 30 Jun 2025 09:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.996573
- Title: Robustness of Misinformation Classification Systems to Adversarial Examples Through BeamAttack
- Title(参考訳): BeamAttackによる誤情報分類システムの逆例に対するロバスト性
- Authors: Arnisa Fazla, Lucas Krauter, David Guzman Piedrahita, Andrianos Michail,
- Abstract要約: BeamAttackは、テキスト分類システムの堅牢性を評価するために設計された敵攻撃アルゴリズムである。
私たちの拡張機能には、単語削除のサポートと置換をスキップするオプションが含まれています。
本手法は,原文の意味的および語彙的類似性を保ちながら,99%以上の攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We extend BeamAttack, an adversarial attack algorithm designed to evaluate the robustness of text classification systems through word-level modifications guided by beam search. Our extensions include support for word deletions and the option to skip substitutions, enabling the discovery of minimal modifications that alter model predictions. We also integrate LIME to better prioritize word replacements. Evaluated across multiple datasets and victim models (BiLSTM, BERT, and adversarially trained RoBERTa) within the BODEGA framework, our approach achieves over a 99\% attack success rate while preserving the semantic and lexical similarity of the original texts. Through both quantitative and qualitative analysis, we highlight BeamAttack's effectiveness and its limitations. Our implementation is available at https://github.com/LucK1Y/BeamAttack
- Abstract(参考訳): 本研究では,ビームサーチによって誘導される単語レベルの修正により,テキスト分類システムのロバスト性を評価するための逆攻撃アルゴリズムであるBeamAttackを拡張した。
我々の拡張には、単語削除のサポートと置換をスキップするオプションが含まれており、モデル予測を変更する最小限の変更の発見を可能にします。
また、単語置換をより適切に優先順位付けするためにLIMEを統合します。
BODEGAフレームワーク内の複数のデータセットおよび被害者モデル(BiLSTM,BERT,および逆向きに訓練されたRoBERTa)にまたがって評価を行い,本手法は,原文の意味的および語彙的類似性を保ちながら,99%以上の攻撃成功率を達成する。
定量解析と定性解析の両方を通して、BeamAttackの有効性と限界を強調した。
私たちの実装はhttps://github.com/LucK1Y/BeamAttackで利用可能です。
関連論文リスト
- Attacking Misinformation Detection Using Adversarial Examples Generated by Language Models [0.0]
テキスト分類アルゴリズムのロバスト性をテストするために,逆例を生成するという課題について検討する。
我々は、攻撃者が試すことができるクエリ数に現実的な制限を設定することで、コンテンツモデレーションのシミュレーションに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-28T11:46:30Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - BERT is Robust! A Case Against Synonym-Based Adversarial Examples in
Text Classification [8.072745157605777]
BERTに対する4つの単語置換に基づく攻撃について検討する。
彼らの成功は主に、貧弱なデータをモデルに供給することに基づいている。
追加の処理後ステップは、最先端攻撃の成功率を5%以下に下げる。
論文 参考訳(メタデータ) (2021-09-15T16:15:16Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Generating Natural Language Attacks in a Hard Label Black Box Setting [3.52359746858894]
我々は、ハードラベルブラックボックス設定で自然言語処理モデルを攻撃する重要かつ困難なタスクを研究します。
本研究では, テキスト分類と関連タスクにおいて, 質の高い対比例を作成する意思決定に基づく攻撃戦略を提案する。
論文 参考訳(メタデータ) (2020-12-29T22:01:38Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。