論文の概要: Adversarial Robustness of Neural-Statistical Features in Detection of
Generative Transformers
- arxiv url: http://arxiv.org/abs/2203.07983v1
- Date: Wed, 2 Mar 2022 16:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 23:10:34.633124
- Title: Adversarial Robustness of Neural-Statistical Features in Detection of
Generative Transformers
- Title(参考訳): 生成トランスの検出における神経統計的特徴の敵対的ロバスト性
- Authors: Evan Crothers, Nathalie Japkowicz, Herna Viktor, Paula Branco
- Abstract要約: コンピュータ生成テキストの検出能力に対するニューラルおよび非ニューラルアプローチの評価を行った。
統計学的特徴は神経的特徴に劣るが, 統計学的特徴は追加の対向的堅牢性をもたらす。
我々は,逆テキスト品質の人的判断のための代用尺度として$Delta$MAUVEを考案した。
- 参考スコア(独自算出の注目度): 6.209131728799896
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The detection of computer-generated text is an area of rapidly increasing
significance as nascent generative models allow for efficient creation of
compelling human-like text, which may be abused for the purposes of spam,
disinformation, phishing, or online influence campaigns. Past work has studied
detection of current state-of-the-art models, but despite a developing threat
landscape, there has been minimal analysis of the robustness of detection
methods to adversarial attacks. To this end, we evaluate neural and non-neural
approaches on their ability to detect computer-generated text, their robustness
against text adversarial attacks, and the impact that successful adversarial
attacks have on human judgement of text quality. We find that while statistical
features underperform neural features, statistical features provide additional
adversarial robustness that can be leveraged in ensemble detection models. In
the process, we find that previously effective complex phrasal features for
detection of computer-generated text hold little predictive power against
contemporary generative models, and identify promising statistical features to
use instead. Finally, we pioneer the usage of $\Delta$MAUVE as a proxy measure
for human judgement of adversarial text quality.
- Abstract(参考訳): コンピュータ生成テキストの検出は、新しい生成モデルによって、スパム、偽情報、フィッシング、オンライン影響キャンペーンの目的で悪用されるような、魅力的な人間のようなテキストを効率的に作成できるため、急速に重要度が高まっている分野である。
過去の研究は最先端のモデルの検出を研究してきたが、脅威の展望が発達しているにもかかわらず、敵の攻撃に対する検出方法の堅牢性に関する分析は最小限である。
そこで本研究では,ニューラルおよび非ニューラルアプローチによる,コンピュータ生成テキストの検出能力,テキスト攻撃に対するロバスト性,テキスト品質の判定に有効な敵の攻撃が与える影響について評価する。
統計的特徴は神経的特徴を過小評価するが、統計的特徴はアンサンブル検出モデルで活用できる対向ロバスト性を提供する。
その過程では,コンピュータ生成テキストの検出において従来有効な複雑なフラッサル特徴が,現代生成モデルに対する予測力に乏しく,その代わりに有望な統計的特徴を識別できることを見出した。
最後に,逆テキスト品質の人的判断のための代用尺度として$\Delta$MAUVEを考案した。
関連論文リスト
- Suspiciousness of Adversarial Texts to Human [3.312665722657581]
この研究は、人間の不審感という概念を掘り下げるものであり、画像に基づく敵の例に見られる非受容性に対する伝統的な焦点とは異なる品質である。
敵文の疑わしい点に関する人文評価の新たなデータセットを収集,公開する。
本研究では,疑わしいテキスト生成における疑わしさを軽減するために,疑わしさを定量化し,今後の研究のベースラインを確立するための回帰モデルを開発する。
論文 参考訳(メタデータ) (2024-10-06T06:57:22Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - How do humans perceive adversarial text? A reality check on the validity
and naturalness of word-based adversarial attacks [4.297786261992324]
敵対的攻撃は 不正なアルゴリズムだ 入力テキストを不当に修正して モデルに誤った予測をさせる
378人の被験者を対象に,最先端の手法によるテキスト対逆例の知覚可能性について調査した。
以上の結果から,既存のテキスト攻撃は人間が関与する現実のシナリオでは実行不可能であることが示唆された。
論文 参考訳(メタデータ) (2023-05-24T21:52:13Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Mutation-Based Adversarial Attacks on Neural Text Detectors [1.5101132008238316]
そこで本研究では,現在最先端の自然テキスト検出装置を攻撃するために,対数サンプルを生成するための文字および単語ベースの突然変異演算子を提案する。
このような攻撃では、攻撃者は元のテキストにアクセスでき、この元のテキストに基づいて突然変異インスタンスを生成する。
論文 参考訳(メタデータ) (2023-02-11T22:08:32Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Residual Error: a New Performance Measure for Adversarial Robustness [85.0371352689919]
ディープラーニングの広く普及を制限する大きな課題は、敵の攻撃に対する脆弱さである。
本研究は,ディープニューラルネットワークの対角強靭性を評価するための新しい性能尺度である残留誤差の概念を提示する。
画像分類を用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-06-18T16:34:23Z) - Evaluating Deception Detection Model Robustness To Linguistic Variation [10.131671217810581]
認知ニュース検出の設定における言語的変化に対するモデル堅牢性の解析を提案する。
2つの予測タスクを検討し,3つの最先端組込みを比較して,モデル性能の一貫した傾向を強調する。
キャラクタあるいは混合アンサンブルモデルが最も効果的な防御であり,キャラクタ摂動に基づく攻撃戦術がより成功していることがわかった。
論文 参考訳(メタデータ) (2021-04-23T17:25:38Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。