論文の概要: Attacking Neural Text Detectors
- arxiv url: http://arxiv.org/abs/2002.11768v4
- Date: Wed, 19 Jan 2022 09:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 14:21:27.916888
- Title: Attacking Neural Text Detectors
- Title(参考訳): ニューラルネットワーク検出器の攻撃
- Authors: Max Wolff, Stuart Wolff
- Abstract要約: 本稿では,ニューラルテキスト検出器に対するブラックボックス攻撃の2つのクラスについて述べる。
ホモグリフとミススペル攻撃は、ニューラルテキスト上の一般的なニューラルテキスト検出器のリコールを97.44%から0.26%、22.68%へと減少させる。
結果は、攻撃が他の神経テキスト検出器に転送可能であることも示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning based language models have recently made significant
progress, which introduces a danger to spread misinformation. To combat this
potential danger, several methods have been proposed for detecting text written
by these language models. This paper presents two classes of black-box attacks
on these detectors, one which randomly replaces characters with homoglyphs, and
the other a simple scheme to purposefully misspell words. The homoglyph and
misspelling attacks decrease a popular neural text detector's recall on neural
text from 97.44% to 0.26% and 22.68%, respectively. Results also indicate that
the attacks are transferable to other neural text detectors.
- Abstract(参考訳): 機械学習ベースの言語モデルは最近大きな進歩を遂げており、誤った情報を広める危険をもたらしている。
この危険性に対処するために、これらの言語モデルによって書かれたテキストを検出するいくつかの方法が提案されている。
本稿では,これらの検出器に対するブラックボックス攻撃の2つのクラスについて述べる。1つはランダムに文字をホモグリフに置き換え,もう1つは故意に単語をミスペールする単純なスキームである。
ホモグリフとミススペル攻撃により、ニューラルテキストのリコールは97.44%から0.26%、22.68%へと減少する。
結果は、攻撃が他の神経テキスト検出器に転送可能であることも示している。
関連論文リスト
- Neural Fingerprints for Adversarial Attack Detection [2.7309692684728613]
ディープラーニングモデルのよく知られた脆弱性は、敵の例に対する感受性である。
この問題に対処するために多くのアルゴリズムが提案され、一般に2つのカテゴリの1つに分類される。
我々は、攻撃者がネットワークと検出器の構成と重みを知っているホワイトボックス環境では、検出器を克服できると主張している。
この問題は、非常に優れたモデルでさえ安全性を確保するのに不十分なセキュリティアプリケーションで一般的である。
論文 参考訳(メタデータ) (2024-11-07T08:43:42Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Efficient Black-Box Adversarial Attacks on Neural Text Detectors [1.223779595809275]
本稿では,GPT-3.5が生成したテキストを人間の目には見えないが,ニューラルテキスト検出装置による誤分類を引き起こす3つの簡単な方法について検討する。
その結果,特にパラメータ調整や文字レベルの変異が有効な方法であることが示唆された。
論文 参考訳(メタデータ) (2023-11-03T12:29:32Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Mutation-Based Adversarial Attacks on Neural Text Detectors [1.5101132008238316]
そこで本研究では,現在最先端の自然テキスト検出装置を攻撃するために,対数サンプルを生成するための文字および単語ベースの突然変異演算子を提案する。
このような攻撃では、攻撃者は元のテキストにアクセスでき、この元のテキストに基づいて突然変異インスタンスを生成する。
論文 参考訳(メタデータ) (2023-02-11T22:08:32Z) - Putting words into the system's mouth: A targeted attack on neural
machine translation using monolingual data poisoning [50.67997309717586]
本稿では、悪意のある敵が、バックトランスレーションを用いて訓練されたシステムのトレーニングセットに、モノリンガルテキストの少量の有毒サンプルを挿入する中毒攻撃を提案する。
このサンプルは、パドリング誤報のような特定の標的となる翻訳行動を引き起こすように設計されている。
有毒な例を作るための2つの方法を示し、トレーニングセットの0.02%にしか満たない少数の事例しか、攻撃を成功させるには不十分であることを示した。
論文 参考訳(メタデータ) (2021-07-12T08:07:09Z) - Hidden Backdoors in Human-Centric Language Models [12.694861859949585]
私たちはテキストバックドア攻撃の秘密と自然なトリガーを作成します。
隠れたバックドアを2つの最先端のトリガー埋め込みメソッドにデプロイします。
提案した隠れバックドアは,3つの下流セキュリティクリティカルなNLPタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-05-01T04:41:00Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。