論文の概要: Large Language Models can be Guided to Evade AI-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2305.10847v2
- Date: Fri, 19 May 2023 11:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 10:28:37.480353
- Title: Large Language Models can be Guided to Evade AI-Generated Text Detection
- Title(参考訳): 大規模言語モデルによるAI生成テキスト検出の回避
- Authors: Ning Lu, Shengcai Liu, Rui He, Qi Wang, Ke Tang
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
これらのモデルの潜在的な誤用に対処することが不可欠であり、これは盗作やスパムなどの有害な結果につながる可能性がある。
そこで我々は,このようなプロンプトを自動生成する新しい代用型In-Context例最適化法(SICO)を提案する。
- 参考スコア(独自算出の注目度): 34.967014589480755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional performance in a
variety of tasks, including essay writing and question answering. However, it
is crucial to address the potential misuse of these models, which can lead to
detrimental outcomes such as plagiarism and spamming. Recently, several
detectors have been proposed, including fine-tuned classifiers and various
statistical methods. In this study, we reveal that with the aid of carefully
crafted prompts, LLMs can effectively evade these detection systems. We propose
a novel Substitution-based In-Context example Optimization method (SICO) to
automatically generate such prompts. On three real-world tasks where LLMs can
be misused, SICO successfully enables ChatGPT to evade six existing detectors,
causing a significant 0.54 AUC drop on average. Surprisingly, in most cases
these detectors perform even worse than random classifiers. These results
firmly reveal the vulnerability of existing detectors. Finally, the strong
performance of SICO suggests itself as a reliable evaluation protocol for any
new detector in this field.
- Abstract(参考訳): 大規模言語モデル(llm)は,エッセイ執筆や質問応答など,さまざまなタスクにおいて例外的なパフォーマンスを示している。
しかし、これらのモデルの潜在的な誤用に対処することが重要であるため、盗作やスパムなどの有害な結果につながる可能性がある。
近年、微調整分類器や様々な統計手法を含むいくつかの検出器が提案されている。
本研究では,注意深いプロンプトの支援により,これらの検出システムを効果的に回避できることを示す。
このようなプロンプトを自動的に生成する新しい置換型in-context example optimization method(sico)を提案する。
LLMを誤用できる3つの現実世界のタスクにおいて、SICOはChatGPTを6つの既存の検出器から回避することができ、平均して0.54AUCの低下を引き起こした。
驚くべきことに、ほとんどの場合、これらの検出器はランダムな分類器よりもさらに悪い性能を発揮する。
これらの結果は、既存の検出器の脆弱性を明確に示している。
最後に、SICOの強い性能は、この分野の新しい検出器に対する信頼性の高い評価プロトコルであることを示唆している。
関連論文リスト
- DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
我々は,現在のSOTA検出器の強度と限界を明らかにした。
DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - Zero-Shot Machine-Generated Text Detection Using Mixture of Large Language Models [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。
それぞれの強みを組み合わせるための理論的な新しいアプローチを提案する。
種々のジェネレータLSMを用いた実験により,検出のロバスト性を効果的に向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-11T20:55:12Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - How Reliable Are AI-Generated-Text Detectors? An Assessment Framework
Using Evasive Soft Prompts [14.175243473740727]
本研究では,PLMに高い性能の検出器を回避できるテキストを生成する新しい手法を提案する。
提案手法は、新しいタイプのソフトプロンプトである普遍的回避プロンプトを示唆しており、このプロンプトは、検知器を誤解させる「人間のような」テキストを生成するのにPLMを導く。
我々は,最先端検出器の回避における回避ソフトプロンプトの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-10-08T09:53:46Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。