論文の概要: BODEGA: Benchmark for Adversarial Example Generation in Credibility
Assessment
- arxiv url: http://arxiv.org/abs/2303.08032v1
- Date: Tue, 14 Mar 2023 16:11:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:16:33.735991
- Title: BODEGA: Benchmark for Adversarial Example Generation in Credibility
Assessment
- Title(参考訳): bodega: 信頼度評価における逆例生成ベンチマーク
- Authors: Piotr Przyby{\l}a, Alexander Shvets, Horacio Saggion
- Abstract要約: 偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
実際、いくつかのケースでは、入力テキストのほとんど重要な変更は、モデルを誤解させる可能性がある。
- 参考スコア(独自算出の注目度): 79.08422736721764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text classification methods have been widely investigated as a way to detect
content of low credibility: fake news, social media bots, propaganda, etc.
Quite accurate models (likely based on deep neural networks) help in moderating
public electronic platforms and often cause content creators to face rejection
of their submissions or removal of already published texts. Having the
incentive to evade further detection, content creators try to come up with a
slightly modified version of the text (known as an attack with an adversarial
example) that exploit the weaknesses of classifiers and result in a different
output. Here we introduce BODEGA: a benchmark for testing both victim models
and attack methods on four misinformation detection tasks in an evaluation
framework designed to simulate real use-cases of content moderation. We also
systematically test the robustness of popular text classifiers against
available attacking techniques and discover that, indeed, in some cases barely
significant changes in input text can mislead the models. We openly share the
BODEGA code and data in hope of enhancing the comparability and replicability
of further research in this area.
- Abstract(参考訳): テキスト分類法は、偽ニュース、ソーシャルメディアボット、プロパガンダなど、信頼性の低いコンテンツを検出する手段として広く研究されている。
非常に正確なモデル(おそらくディープニューラルネットワークに基づく)は、パブリックな電子プラットフォームをモデレートするのに役立ち、コンテンツクリエーターが既に公開されたテキストの提出や削除を拒否されることが多い。
コンテンツクリエーターは、さらなる検出を避けるインセンティブを得て、分類器の弱点を悪用して異なる出力をもたらす、わずかに修正されたテキスト(敵の例による攻撃として知られる)の版を考え出そうとする。
コンテンツモデレーションの実際のユースケースをシミュレートするために設計された評価フレームワークにおいて、被害者モデルと攻撃方法の両方を4つの誤情報検出タスクでテストするためのベンチマークであるbodegaを紹介します。
また,一般的なテキスト分類器のロバスト性を攻撃的手法に対して系統的にテストし,場合によっては入力テキストの大幅な変更がモデルの誤解を招くことを発見した。
我々はBODEGAコードとデータをオープンに共有し、この分野におけるさらなる研究の可視性と複製性を高めることを期待する。
関連論文リスト
- Like a Good Nearest Neighbor: Practical Content Moderation with Sentence
Transformers [67.83624838709827]
LaGoNN(Good Nearest Neighbor)は、SetFitの安価な修正で、隣人に関する情報で入力を変更できる。
LaGoNNは有害なコンテンツの検出に有効であり、SetFitと比較して一般的にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Detection of Word Adversarial Examples in Text Classification: Benchmark
and Baseline via Robust Density Estimation [33.46393193123221]
4つのデータセットと4つのモデルで4つの一般的な攻撃方法のデータセットをリリースする。
我々は,30のデータセット-アタックモデルの組み合わせのうち29のAUCが最も高い密度推定に基づく競合ベースラインを提案する。
論文 参考訳(メタデータ) (2022-03-03T12:32:59Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z) - CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial
Text Generation [20.27052525082402]
本稿では,制御可能な属性による逆テキストを生成する制御付き逆テキスト生成(CAT-Gen)モデルを提案する。
実世界のNLPデータセットを用いた実験により,本手法はより多種多様な逆数文を生成することができることが示された。
論文 参考訳(メタデータ) (2020-10-05T21:07:45Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z) - TextDecepter: Hard Label Black Box Attack on Text Classifiers [0.0]
自然言語処理(NLP)分類器に対するハードラベルブラックボックス攻撃に対する新しいアプローチを提案する。
このような攻撃シナリオは、感情分析や有害なコンテンツ検出といったセキュリティに敏感なアプリケーションに使われている現実世界のブラックボックスモデルにも適用される。
論文 参考訳(メタデータ) (2020-08-16T08:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。