論文の概要: Large Language Models can be Guided to Evade AI-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2305.10847v5
- Date: Thu, 14 Dec 2023 12:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:53:41.713032
- Title: Large Language Models can be Guided to Evade AI-Generated Text Detection
- Title(参考訳): 大規模言語モデルによるAI生成テキスト検出の回避
- Authors: Ning Lu, Shengcai Liu, Rui He, Qi Wang, Yew-Soon Ong, Ke Tang
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示し、一般に広く利用されている。
我々は、これらの検出器の脆弱性を評価するために、外部パラフレーズに頼るのではなく、LSMにプロンプトを付与する。
本研究では,検出器を回避するためのプロンプトを自動構築する,代用型In-Contextサンプル最適化手法を提案する。
- 参考スコア(独自算出の注目度): 43.20137621161661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable performance in various
tasks and have been extensively utilized by the public. However, the increasing
concerns regarding the misuse of LLMs, such as plagiarism and spamming, have
led to the development of multiple detectors, including fine-tuned classifiers
and statistical methods. In this study, we equip LLMs with prompts, rather than
relying on an external paraphraser, to evaluate the vulnerability of these
detectors. We propose a novel Substitution-based In-Context example
Optimization method (SICO) to automatically construct prompts for evading the
detectors. SICO is cost-efficient as it requires only 40 human-written examples
and a limited number of LLM inferences to generate a prompt. Moreover, once a
task-specific prompt has been constructed, it can be universally used against a
wide range of detectors. Extensive experiments across three real-world tasks
demonstrate that SICO significantly outperforms the paraphraser baselines and
enables GPT-3.5 to successfully evade six detectors, decreasing their AUC by
0.5 on average. Furthermore, a comprehensive human evaluation as well as a
validation experiment in the wild show that the SICO-generated text achieves
human-level readability and task completion rates. Finally, the strong
performance of SICO exhibits its potential as a reliable evaluation tool for
future detectors. The codes and data are located on
https://github.com/ColinLu50/Evade-GPT-Detector.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示し、一般に広く利用されている。
しかし、盗作やスパムといったllmの誤用に関する懸念が高まり、微調整された分類器や統計的手法を含む複数の検出器の開発につながった。
本研究では,これらの検出器の脆弱性を評価するために,外部パラフラサーに頼るのではなく,LCMにプロンプトを付与する。
本稿では,検出器を回避するためのプロンプトを自動的に構築する新しい置換型インコンテキスト・サンプル最適化手法を提案する。
SICOは40の人手による例と、プロンプトを生成するのに限られた数のLLM推論を必要とするため、コスト効率が高い。
さらに、タスク固有のプロンプトが構築されれば、幅広い検出器に対して普遍的に使用することができる。
3つの実世界のタスクにわたる大規模な実験により、SICOはパラフラザーベースラインを著しく上回り、GPT-3.5は6つの検出器を回避し、平均0.5のAUCを減少させることができた。
さらに、総合的な人的評価と、野生での検証実験により、SICO生成したテキストが人間レベルの可読性とタスク完了率を達成することを示す。
最後に、sicoの強力な性能は将来の検出器の信頼性評価ツールとしての可能性を示している。
コードとデータはhttps://github.com/ColinLu50/Evade-GPT-Detectorにある。
関連論文リスト
- Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Enhancing Robustness of LLM-Synthetic Text Detectors for Academic
Writing: A Comprehensive Analysis [35.351782110161025]
大規模言語モデル(LLM)は、仕事と研究の方法に革命をもたらす多くの利点を提供する。
彼らはまた、潜在的なネガティブな結果のために、かなりの注意を払っている。
1つの例は、人的貢献の少ない学術報告書や論文を作成することである。
論文 参考訳(メタデータ) (2024-01-16T01:58:36Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - GPT-who: An Information Density-based Machine-Generated Text Detector [6.111161457447324]
精神言語学的に着想を得た最初のドメイン非依存型統計検出器であるGPT-whoを提案する。
この検出器は、UDDベースの特徴を用いて、LLM(Large Language Models)生成および人文生成の各テキストのユニークな統計的シグネチャをモデル化する。
過剰なテキストが認識できない場合でも、非常に洗練されたLCMによって生成されたテキストを区別できるGPT- who can distinguishing texts。
論文 参考訳(メタデータ) (2023-10-09T23:06:05Z) - How Reliable Are AI-Generated-Text Detectors? An Assessment Framework
Using Evasive Soft Prompts [14.175243473740727]
本研究では,PLMに高い性能の検出器を回避できるテキストを生成する新しい手法を提案する。
提案手法は、新しいタイプのソフトプロンプトである普遍的回避プロンプトを示唆しており、このプロンプトは、検知器を誤解させる「人間のような」テキストを生成するのにPLMを導く。
我々は,最先端検出器の回避における回避ソフトプロンプトの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-10-08T09:53:46Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。