論文の概要: BODEGA: Benchmark for Adversarial Example Generation in Credibility
Assessment
- arxiv url: http://arxiv.org/abs/2303.08032v1
- Date: Tue, 14 Mar 2023 16:11:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:16:33.735991
- Title: BODEGA: Benchmark for Adversarial Example Generation in Credibility
Assessment
- Title(参考訳): bodega: 信頼度評価における逆例生成ベンチマーク
- Authors: Piotr Przyby{\l}a, Alexander Shvets, Horacio Saggion
- Abstract要約: 偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
実際、いくつかのケースでは、入力テキストのほとんど重要な変更は、モデルを誤解させる可能性がある。
- 参考スコア(独自算出の注目度): 79.08422736721764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text classification methods have been widely investigated as a way to detect
content of low credibility: fake news, social media bots, propaganda, etc.
Quite accurate models (likely based on deep neural networks) help in moderating
public electronic platforms and often cause content creators to face rejection
of their submissions or removal of already published texts. Having the
incentive to evade further detection, content creators try to come up with a
slightly modified version of the text (known as an attack with an adversarial
example) that exploit the weaknesses of classifiers and result in a different
output. Here we introduce BODEGA: a benchmark for testing both victim models
and attack methods on four misinformation detection tasks in an evaluation
framework designed to simulate real use-cases of content moderation. We also
systematically test the robustness of popular text classifiers against
available attacking techniques and discover that, indeed, in some cases barely
significant changes in input text can mislead the models. We openly share the
BODEGA code and data in hope of enhancing the comparability and replicability
of further research in this area.
- Abstract(参考訳): テキスト分類法は、偽ニュース、ソーシャルメディアボット、プロパガンダなど、信頼性の低いコンテンツを検出する手段として広く研究されている。
非常に正確なモデル(おそらくディープニューラルネットワークに基づく)は、パブリックな電子プラットフォームをモデレートするのに役立ち、コンテンツクリエーターが既に公開されたテキストの提出や削除を拒否されることが多い。
コンテンツクリエーターは、さらなる検出を避けるインセンティブを得て、分類器の弱点を悪用して異なる出力をもたらす、わずかに修正されたテキスト(敵の例による攻撃として知られる)の版を考え出そうとする。
コンテンツモデレーションの実際のユースケースをシミュレートするために設計された評価フレームワークにおいて、被害者モデルと攻撃方法の両方を4つの誤情報検出タスクでテストするためのベンチマークであるbodegaを紹介します。
また,一般的なテキスト分類器のロバスト性を攻撃的手法に対して系統的にテストし,場合によっては入力テキストの大幅な変更がモデルの誤解を招くことを発見した。
我々はBODEGAコードとデータをオープンに共有し、この分野におけるさらなる研究の可視性と複製性を高めることを期待する。
関連論文リスト
- Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Detection of Word Adversarial Examples in Text Classification: Benchmark
and Baseline via Robust Density Estimation [33.46393193123221]
4つのデータセットと4つのモデルで4つの一般的な攻撃方法のデータセットをリリースする。
我々は,30のデータセット-アタックモデルの組み合わせのうち29のAUCが最も高い密度推定に基づく競合ベースラインを提案する。
論文 参考訳(メタデータ) (2022-03-03T12:32:59Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z) - TextDecepter: Hard Label Black Box Attack on Text Classifiers [0.0]
自然言語処理(NLP)分類器に対するハードラベルブラックボックス攻撃に対する新しいアプローチを提案する。
このような攻撃シナリオは、感情分析や有害なコンテンツ検出といったセキュリティに敏感なアプリケーションに使われている現実世界のブラックボックスモデルにも適用される。
論文 参考訳(メタデータ) (2020-08-16T08:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。