Fugu-MT 論文翻訳(概要): BODEGA: Benchmark for Adversarial Example Generation in Credibility Assessment

論文の概要: BODEGA: Benchmark for Adversarial Example Generation in Credibility Assessment

arxiv url: http://arxiv.org/abs/2303.08032v1
Date: Tue, 14 Mar 2023 16:11:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-15 14:16:33.735991
Title: BODEGA: Benchmark for Adversarial Example Generation in Credibility Assessment
Title（参考訳）: bodega: 信頼度評価における逆例生成ベンチマーク
Authors: Piotr Przyby{\l}a, Alexander Shvets, Horacio Saggion
Abstract要約: 偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。実際、いくつかのケースでは、入力テキストのほとんど重要な変更は、モデルを誤解させる可能性がある。
参考スコア（独自算出の注目度）: 79.08422736721764
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text classification methods have been widely investigated as a way to detect content of low credibility: fake news, social media bots, propaganda, etc. Quite accurate models (likely based on deep neural networks) help in moderating public electronic platforms and often cause content creators to face rejection of their submissions or removal of already published texts. Having the incentive to evade further detection, content creators try to come up with a slightly modified version of the text (known as an attack with an adversarial example) that exploit the weaknesses of classifiers and result in a different output. Here we introduce BODEGA: a benchmark for testing both victim models and attack methods on four misinformation detection tasks in an evaluation framework designed to simulate real use-cases of content moderation. We also systematically test the robustness of popular text classifiers against available attacking techniques and discover that, indeed, in some cases barely significant changes in input text can mislead the models. We openly share the BODEGA code and data in hope of enhancing the comparability and replicability of further research in this area.
Abstract（参考訳）: テキスト分類法は、偽ニュース、ソーシャルメディアボット、プロパガンダなど、信頼性の低いコンテンツを検出する手段として広く研究されている。非常に正確なモデル(おそらくディープニューラルネットワークに基づく)は、パブリックな電子プラットフォームをモデレートするのに役立ち、コンテンツクリエーターが既に公開されたテキストの提出や削除を拒否されることが多い。コンテンツクリエーターは、さらなる検出を避けるインセンティブを得て、分類器の弱点を悪用して異なる出力をもたらす、わずかに修正されたテキスト(敵の例による攻撃として知られる)の版を考え出そうとする。コンテンツモデレーションの実際のユースケースをシミュレートするために設計された評価フレームワークにおいて、被害者モデルと攻撃方法の両方を4つの誤情報検出タスクでテストするためのベンチマークであるbodegaを紹介します。また,一般的なテキスト分類器のロバスト性を攻撃的手法に対して系統的にテストし,場合によっては入力テキストの大幅な変更がモデルの誤解を招くことを発見した。我々はBODEGAコードとデータをオープンに共有し、この分野におけるさらなる研究の可視性と複製性を高めることを期待する。

関連論文リスト

Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文参考訳（メタデータ） (2025-01-30T18:02:15Z)
Attacking Misinformation Detection Using Adversarial Examples Generated by Language Models [0.0]
テキスト分類アルゴリズムのロバスト性をテストするために,逆例を生成するという課題について検討する。我々は、攻撃者が試すことができるクエリ数に現実的な制限を設定することで、コンテンツモデレーションのシミュレーションに焦点を当てる。
論文参考訳（メタデータ） (2024-10-28T11:46:30Z)
Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文参考訳（メタデータ） (2024-03-17T16:36:26Z)
Punctuation Matters! Stealthy Backdoor Attack for Language Models [36.91297828347229]
バックドアモデルは、テキスト上で不適切に実行しながら、クリーンなサンプルに対して正常な出力を生成する。いくつかの攻撃方法は文法的な問題を引き起こしたり、元のテキストの意味を変更したりする。我々は,textbfPuncAttackと呼ばれる,テキストモデルに対する新たなステルスバックドア攻撃手法を提案する。
論文参考訳（メタデータ） (2023-12-26T03:26:20Z)
Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文参考訳（メタデータ） (2023-05-12T12:13:27Z)
TextShield: Beyond Successfully Detecting Adversarial Sentences in Text Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。従来の検出方法は、相手文に対して正しい予測を与えることができない。本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文参考訳（メタデータ） (2023-02-03T22:58:07Z)
Detection of Word Adversarial Examples in Text Classification: Benchmark and Baseline via Robust Density Estimation [33.46393193123221]
4つのデータセットと4つのモデルで4つの一般的な攻撃方法のデータセットをリリースする。我々は,30のデータセット-アタックモデルの組み合わせのうち29のAUCが最も高い密度推定に基づく競合ベースラインを提案する。
論文参考訳（メタデータ） (2022-03-03T12:32:59Z)
Identifying Adversarial Attacks on Text Classifiers [32.958568467774704]
本稿では,その生成にどの方法が使われたかを決定するために,逆テキストを解析する。最初のコントリビューションは、攻撃検出とラベル付けのための広範なデータセットです。第2のコントリビューションとして、このデータセットを使用して、攻撃識別のための多くの分類器を開発し、ベンチマークします。
論文参考訳（メタデータ） (2022-01-21T06:16:04Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文参考訳（メタデータ） (2021-04-16T14:37:27Z)
Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文参考訳（メタデータ） (2020-09-16T14:13:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。