Fugu-MT 論文翻訳(概要): Attacking Neural Text Detectors

論文の概要: Attacking Neural Text Detectors

arxiv url: http://arxiv.org/abs/2002.11768v4
Date: Wed, 19 Jan 2022 09:28:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-30 14:21:27.916888
Title: Attacking Neural Text Detectors
Title（参考訳）: ニューラルネットワーク検出器の攻撃
Authors: Max Wolff, Stuart Wolff
Abstract要約: 本稿では,ニューラルテキスト検出器に対するブラックボックス攻撃の2つのクラスについて述べる。ホモグリフとミススペル攻撃は、ニューラルテキスト上の一般的なニューラルテキスト検出器のリコールを97.44%から0.26%、22.68%へと減少させる。結果は、攻撃が他の神経テキスト検出器に転送可能であることも示している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine learning based language models have recently made significant progress, which introduces a danger to spread misinformation. To combat this potential danger, several methods have been proposed for detecting text written by these language models. This paper presents two classes of black-box attacks on these detectors, one which randomly replaces characters with homoglyphs, and the other a simple scheme to purposefully misspell words. The homoglyph and misspelling attacks decrease a popular neural text detector's recall on neural text from 97.44% to 0.26% and 22.68%, respectively. Results also indicate that the attacks are transferable to other neural text detectors.
Abstract（参考訳）: 機械学習ベースの言語モデルは最近大きな進歩を遂げており、誤った情報を広める危険をもたらしている。この危険性に対処するために、これらの言語モデルによって書かれたテキストを検出するいくつかの方法が提案されている。本稿では,これらの検出器に対するブラックボックス攻撃の2つのクラスについて述べる。1つはランダムに文字をホモグリフに置き換え,もう1つは故意に単語をミスペールする単純なスキームである。ホモグリフとミススペル攻撃により、ニューラルテキストのリコールは97.44%から0.26%、22.68%へと減少する。結果は、攻撃が他の神経テキスト検出器に転送可能であることも示している。

関連論文リスト

TempTest: Local Normalization Distortion and the Detection of Machine-generated Text [0.0]
本稿では,生成言語モデルに完全に依存した機械生成テキストを検出する手法を提案する。これは、温度やトップkサンプリングのようなデコード戦略が条件付き確率測度を正規化する方法の欠陥を目標にすることで達成される。我々は,様々な言語モデル,データセット,通過距離の異なる,白と黒のボックス設定での検出器の評価を行った。
論文参考訳（メタデータ） (2025-03-26T10:56:59Z)
Adversarial Attacks on AI-Generated Text Detection Models: A Token Probability-Based Approach Using Embeddings [14.150011713654331]
本研究では,Fast-DetectGPTなどの検出モデルに対する新たなテキスト逆攻撃を提案する。この手法では、AI生成したテキストの再構築を目的として、データ摂動の埋め込みモデルを用いて、テキストの真の起源を検出する可能性を低減する。
論文参考訳（メタデータ） (2025-01-31T10:06:27Z)
Multi-Granularity Tibetan Textual Adversarial Attack Method Based on Masked Language Model [0.0]
我々はTSTrickerと呼ばれるマスキング言語モデルに基づく多粒度チベット文字対逆攻撃法を提案する。結果は、TSTrickerが分類モデルの精度を28.70%以上削減し、分類モデルが90.60%以上のサンプルの予測を変更することを示している。
論文参考訳（メタデータ） (2024-12-03T10:03:52Z)
Neural Fingerprints for Adversarial Attack Detection [2.7309692684728613]
ディープラーニングモデルのよく知られた脆弱性は、敵の例に対する感受性である。この問題に対処するために多くのアルゴリズムが提案され、一般に2つのカテゴリの1つに分類される。我々は、攻撃者がネットワークと検出器の構成と重みを知っているホワイトボックス環境では、検出器を克服できると主張している。この問題は、非常に優れたモデルでさえ安全性を確保するのに不十分なセキュリティアプリケーションで一般的である。
論文参考訳（メタデータ） (2024-11-07T08:43:42Z)
Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。トピックと検出性能の間に有意な相関関係が発見された。これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文参考訳（メタデータ） (2023-12-20T10:53:53Z)
Efficient Black-Box Adversarial Attacks on Neural Text Detectors [1.223779595809275]
本稿では,GPT-3.5が生成したテキストを人間の目には見えないが,ニューラルテキスト検出装置による誤分類を引き起こす3つの簡単な方法について検討する。その結果,特にパラメータ調整や文字レベルの変異が有効な方法であることが示唆された。
論文参考訳（メタデータ） (2023-11-03T12:29:32Z)
Smaller Language Models are Better Black-box Machine-Generated Text Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文参考訳（メタデータ） (2023-05-17T00:09:08Z)
Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
Mutation-Based Adversarial Attacks on Neural Text Detectors [1.5101132008238316]
そこで本研究では,現在最先端の自然テキスト検出装置を攻撃するために,対数サンプルを生成するための文字および単語ベースの突然変異演算子を提案する。このような攻撃では、攻撃者は元のテキストにアクセスでき、この元のテキストに基づいて突然変異インスタンスを生成する。
論文参考訳（メタデータ） (2023-02-11T22:08:32Z)
Putting words into the system's mouth: A targeted attack on neural machine translation using monolingual data poisoning [50.67997309717586]
本稿では、悪意のある敵が、バックトランスレーションを用いて訓練されたシステムのトレーニングセットに、モノリンガルテキストの少量の有毒サンプルを挿入する中毒攻撃を提案する。このサンプルは、パドリング誤報のような特定の標的となる翻訳行動を引き起こすように設計されている。有毒な例を作るための2つの方法を示し、トレーニングセットの0.02%にしか満たない少数の事例しか、攻撃を成功させるには不十分であることを示した。
論文参考訳（メタデータ） (2021-07-12T08:07:09Z)
Hidden Backdoors in Human-Centric Language Models [12.694861859949585]
私たちはテキストバックドア攻撃の秘密と自然なトリガーを作成します。隠れたバックドアを2つの最先端のトリガー埋め込みメソッドにデプロイします。提案した隠れバックドアは,3つの下流セキュリティクリティカルなNLPタスクに対して有効であることを示す。
論文参考訳（メタデータ） (2021-05-01T04:41:00Z)
Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文参考訳（メタデータ） (2020-07-11T21:20:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。