論文の概要: Efficient Black-Box Adversarial Attacks on Neural Text Detectors
- arxiv url: http://arxiv.org/abs/2311.01873v1
- Date: Fri, 3 Nov 2023 12:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 14:24:07.600551
- Title: Efficient Black-Box Adversarial Attacks on Neural Text Detectors
- Title(参考訳): ニューラルネットワーク検出器におけるブラックボックス対応攻撃の効率化
- Authors: Vitalii Fishchuk and Daniel Braun
- Abstract要約: 本稿では,GPT-3.5が生成したテキストを人間の目には見えないが,ニューラルテキスト検出装置による誤分類を引き起こす3つの簡単な方法について検討する。
その結果,特にパラメータ調整や文字レベルの変異が有効な方法であることが示唆された。
- 参考スコア(独自算出の注目度): 1.223779595809275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural text detectors are models trained to detect whether a given text was
generated by a language model or written by a human. In this paper, we
investigate three simple and resource-efficient strategies (parameter tweaking,
prompt engineering, and character-level mutations) to alter texts generated by
GPT-3.5 that are unsuspicious or unnoticeable for humans but cause
misclassification by neural text detectors. The results show that especially
parameter tweaking and character-level mutations are effective strategies.
- Abstract(参考訳): ニューラルテキスト検出器は、与えられたテキストが言語モデルによって生成されたか、あるいは人間が書いたかを検出するように訓練されたモデルである。
本稿では,gpt-3.5が生成する,人間にとって不快で注目されないテキストを,ニューラルネットワークによる誤分類を引き起こすための,単純かつ資源効率の高い3つの戦略(パラメータ調整,プロンプトエンジニアリング,文字レベルの突然変異)について検討する。
その結果,特にパラメータの微調整や文字レベルの変異が効果的な戦略であることがわかった。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Style-Specific Neurons for Steering LLMs in Text Style Transfer [55.06697862691798]
テキストスタイル転送(TST)は、本来の意味を変更することなく、テキストのスタイルを変更することを目的としている。
スタイル特異的ニューロンを用いた大規模言語モデルのステアリング手法であるsNeuron-TSTを提案する。
論文 参考訳(メタデータ) (2024-10-01T11:25:36Z) - ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。
本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。
我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文 参考訳(メタデータ) (2024-09-22T01:13:22Z) - DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Mutation-Based Adversarial Attacks on Neural Text Detectors [1.5101132008238316]
そこで本研究では,現在最先端の自然テキスト検出装置を攻撃するために,対数サンプルを生成するための文字および単語ベースの突然変異演算子を提案する。
このような攻撃では、攻撃者は元のテキストにアクセスでき、この元のテキストに基づいて突然変異インスタンスを生成する。
論文 参考訳(メタデータ) (2023-02-11T22:08:32Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - On Decoding Strategies for Neural Text Generators [73.48162198041884]
言語生成タスクと復号化戦略の相互作用について検討する。
生成したテキストの属性の変化をデコード戦略とタスクの両方の関数として測定する。
以上の結果から,これまで観察された結果と意外な結果の両方が明らかとなった。
論文 参考訳(メタデータ) (2022-03-29T16:25:30Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - Attacking Neural Text Detectors [0.0]
本稿では,ニューラルテキスト検出器に対するブラックボックス攻撃の2つのクラスについて述べる。
ホモグリフとミススペル攻撃は、ニューラルテキスト上の一般的なニューラルテキスト検出器のリコールを97.44%から0.26%、22.68%へと減少させる。
結果は、攻撃が他の神経テキスト検出器に転送可能であることも示している。
論文 参考訳(メタデータ) (2020-02-19T04:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。