論文の概要: Large Language Models can be Guided to Evade AI-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2305.10847v2
- Date: Fri, 19 May 2023 11:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 10:28:37.480353
- Title: Large Language Models can be Guided to Evade AI-Generated Text Detection
- Title(参考訳): 大規模言語モデルによるAI生成テキスト検出の回避
- Authors: Ning Lu, Shengcai Liu, Rui He, Qi Wang, Ke Tang
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
これらのモデルの潜在的な誤用に対処することが不可欠であり、これは盗作やスパムなどの有害な結果につながる可能性がある。
そこで我々は,このようなプロンプトを自動生成する新しい代用型In-Context例最適化法(SICO)を提案する。
- 参考スコア(独自算出の注目度): 34.967014589480755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional performance in a
variety of tasks, including essay writing and question answering. However, it
is crucial to address the potential misuse of these models, which can lead to
detrimental outcomes such as plagiarism and spamming. Recently, several
detectors have been proposed, including fine-tuned classifiers and various
statistical methods. In this study, we reveal that with the aid of carefully
crafted prompts, LLMs can effectively evade these detection systems. We propose
a novel Substitution-based In-Context example Optimization method (SICO) to
automatically generate such prompts. On three real-world tasks where LLMs can
be misused, SICO successfully enables ChatGPT to evade six existing detectors,
causing a significant 0.54 AUC drop on average. Surprisingly, in most cases
these detectors perform even worse than random classifiers. These results
firmly reveal the vulnerability of existing detectors. Finally, the strong
performance of SICO suggests itself as a reliable evaluation protocol for any
new detector in this field.
- Abstract(参考訳): 大規模言語モデル(llm)は,エッセイ執筆や質問応答など,さまざまなタスクにおいて例外的なパフォーマンスを示している。
しかし、これらのモデルの潜在的な誤用に対処することが重要であるため、盗作やスパムなどの有害な結果につながる可能性がある。
近年、微調整分類器や様々な統計手法を含むいくつかの検出器が提案されている。
本研究では,注意深いプロンプトの支援により,これらの検出システムを効果的に回避できることを示す。
このようなプロンプトを自動的に生成する新しい置換型in-context example optimization method(sico)を提案する。
LLMを誤用できる3つの現実世界のタスクにおいて、SICOはChatGPTを6つの既存の検出器から回避することができ、平均して0.54AUCの低下を引き起こした。
驚くべきことに、ほとんどの場合、これらの検出器はランダムな分類器よりもさらに悪い性能を発揮する。
これらの結果は、既存の検出器の脆弱性を明確に示している。
最後に、SICOの強い性能は、この分野の新しい検出器に対する信頼性の高い評価プロトコルであることを示唆している。
関連論文リスト
- Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Enhancing Robustness of LLM-Synthetic Text Detectors for Academic
Writing: A Comprehensive Analysis [35.351782110161025]
大規模言語モデル(LLM)は、仕事と研究の方法に革命をもたらす多くの利点を提供する。
彼らはまた、潜在的なネガティブな結果のために、かなりの注意を払っている。
1つの例は、人的貢献の少ない学術報告書や論文を作成することである。
論文 参考訳(メタデータ) (2024-01-16T01:58:36Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - GPT-who: An Information Density-based Machine-Generated Text Detector [6.111161457447324]
精神言語学的に着想を得た最初のドメイン非依存型統計検出器であるGPT-whoを提案する。
この検出器は、UDDベースの特徴を用いて、LLM(Large Language Models)生成および人文生成の各テキストのユニークな統計的シグネチャをモデル化する。
過剰なテキストが認識できない場合でも、非常に洗練されたLCMによって生成されたテキストを区別できるGPT- who can distinguishing texts。
論文 参考訳(メタデータ) (2023-10-09T23:06:05Z) - How Reliable Are AI-Generated-Text Detectors? An Assessment Framework
Using Evasive Soft Prompts [14.175243473740727]
本研究では,PLMに高い性能の検出器を回避できるテキストを生成する新しい手法を提案する。
提案手法は、新しいタイプのソフトプロンプトである普遍的回避プロンプトを示唆しており、このプロンプトは、検知器を誤解させる「人間のような」テキストを生成するのにPLMを導く。
我々は,最先端検出器の回避における回避ソフトプロンプトの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-10-08T09:53:46Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。