論文の概要: Attacking Neural Text Detectors
- arxiv url: http://arxiv.org/abs/2002.11768v4
- Date: Wed, 19 Jan 2022 09:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 14:21:27.916888
- Title: Attacking Neural Text Detectors
- Title(参考訳): ニューラルネットワーク検出器の攻撃
- Authors: Max Wolff, Stuart Wolff
- Abstract要約: 本稿では,ニューラルテキスト検出器に対するブラックボックス攻撃の2つのクラスについて述べる。
ホモグリフとミススペル攻撃は、ニューラルテキスト上の一般的なニューラルテキスト検出器のリコールを97.44%から0.26%、22.68%へと減少させる。
結果は、攻撃が他の神経テキスト検出器に転送可能であることも示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning based language models have recently made significant
progress, which introduces a danger to spread misinformation. To combat this
potential danger, several methods have been proposed for detecting text written
by these language models. This paper presents two classes of black-box attacks
on these detectors, one which randomly replaces characters with homoglyphs, and
the other a simple scheme to purposefully misspell words. The homoglyph and
misspelling attacks decrease a popular neural text detector's recall on neural
text from 97.44% to 0.26% and 22.68%, respectively. Results also indicate that
the attacks are transferable to other neural text detectors.
- Abstract(参考訳): 機械学習ベースの言語モデルは最近大きな進歩を遂げており、誤った情報を広める危険をもたらしている。
この危険性に対処するために、これらの言語モデルによって書かれたテキストを検出するいくつかの方法が提案されている。
本稿では,これらの検出器に対するブラックボックス攻撃の2つのクラスについて述べる。1つはランダムに文字をホモグリフに置き換え,もう1つは故意に単語をミスペールする単純なスキームである。
ホモグリフとミススペル攻撃により、ニューラルテキストのリコールは97.44%から0.26%、22.68%へと減少する。
結果は、攻撃が他の神経テキスト検出器に転送可能であることも示している。
関連論文リスト
- Adversarial Attacks on AI-Generated Text Detection Models: A Token Probability-Based Approach Using Embeddings [14.150011713654331]
本研究では,Fast-DetectGPTなどの検出モデルに対する新たなテキスト逆攻撃を提案する。
この手法では、AI生成したテキストの再構築を目的として、データ摂動の埋め込みモデルを用いて、テキストの真の起源を検出する可能性を低減する。
論文 参考訳(メタデータ) (2025-01-31T10:06:27Z) - Multi-Granularity Tibetan Textual Adversarial Attack Method Based on Masked Language Model [0.0]
我々はTSTrickerと呼ばれるマスキング言語モデルに基づく多粒度チベット文字対逆攻撃法を提案する。
結果は、TSTrickerが分類モデルの精度を28.70%以上削減し、分類モデルが90.60%以上のサンプルの予測を変更することを示している。
論文 参考訳(メタデータ) (2024-12-03T10:03:52Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Efficient Black-Box Adversarial Attacks on Neural Text Detectors [1.223779595809275]
本稿では,GPT-3.5が生成したテキストを人間の目には見えないが,ニューラルテキスト検出装置による誤分類を引き起こす3つの簡単な方法について検討する。
その結果,特にパラメータ調整や文字レベルの変異が有効な方法であることが示唆された。
論文 参考訳(メタデータ) (2023-11-03T12:29:32Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Mutation-Based Adversarial Attacks on Neural Text Detectors [1.5101132008238316]
そこで本研究では,現在最先端の自然テキスト検出装置を攻撃するために,対数サンプルを生成するための文字および単語ベースの突然変異演算子を提案する。
このような攻撃では、攻撃者は元のテキストにアクセスでき、この元のテキストに基づいて突然変異インスタンスを生成する。
論文 参考訳(メタデータ) (2023-02-11T22:08:32Z) - Putting words into the system's mouth: A targeted attack on neural
machine translation using monolingual data poisoning [50.67997309717586]
本稿では、悪意のある敵が、バックトランスレーションを用いて訓練されたシステムのトレーニングセットに、モノリンガルテキストの少量の有毒サンプルを挿入する中毒攻撃を提案する。
このサンプルは、パドリング誤報のような特定の標的となる翻訳行動を引き起こすように設計されている。
有毒な例を作るための2つの方法を示し、トレーニングセットの0.02%にしか満たない少数の事例しか、攻撃を成功させるには不十分であることを示した。
論文 参考訳(メタデータ) (2021-07-12T08:07:09Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。