論文の概要: DUPE: Detection Undermining via Prompt Engineering for Deepfake Text
- arxiv url: http://arxiv.org/abs/2404.11408v1
- Date: Wed, 17 Apr 2024 14:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 13:45:12.011598
- Title: DUPE: Detection Undermining via Prompt Engineering for Deepfake Text
- Title(参考訳): DUPE:ディープフェイクテキストのプロンプトエンジニアリングによる検出
- Authors: James Weichert, Chinecherem Dimobi,
- Abstract要約: 我々は3つの異なるAIテキスト検出器(透かし、ZeroGPT、GPTZero-againstの人間とAI生成エッセイ)を評価した。
透かしは偽陽性率が高く,ZeroGPTは偽陽性率も偽陰性率も高いことがわかった。
我々は、ChatGPT 3.5を用いて、元のAI生成テキストを言い換えることで、全ての検出器の偽陰性率を大幅に向上することができ、これにより、検出器を効果的にバイパスすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) become increasingly commonplace, concern about distinguishing between human and AI text increases as well. The growing power of these models is of particular concern to teachers, who may worry that students will use LLMs to write school assignments. Facing a technology with which they are unfamiliar, teachers may turn to publicly-available AI text detectors. Yet the accuracy of many of these detectors has not been thoroughly verified, posing potential harm to students who are falsely accused of academic dishonesty. In this paper, we evaluate three different AI text detectors-Kirchenbauer et al. watermarks, ZeroGPT, and GPTZero-against human and AI-generated essays. We find that watermarking results in a high false positive rate, and that ZeroGPT has both high false positive and false negative rates. Further, we are able to significantly increase the false negative rate of all detectors by using ChatGPT 3.5 to paraphrase the original AI-generated texts, thereby effectively bypassing the detectors.
- Abstract(参考訳): 大規模言語モデル(LLM)がますます一般的になるにつれて、人間とAIのテキストの区別に関する懸念も高まる。
これらのモデルの力の増大は、生徒がLLMを使って学校の課題を書くことを心配する教師にとって特に懸念される。
知らない技術に直面すると、教師は公に利用可能なAIテキスト検出装置に目を向けるかもしれない。
しかし、これらの検出器の精度は十分に検証されていないため、学業上の不正を非難された学生に潜在的に害を与える可能性がある。
本稿では,3種類のAIテキスト検出器(Kirchenbauer et al watermarks, ZeroGPT, GPTZero-against HumanおよびAI生成エッセイ)を評価する。
透かしは偽陽性率が高く,ZeroGPTは偽陽性率も偽陰性率も高いことがわかった。
さらに、ChatGPT 3.5を用いて、元のAI生成テキストを言い換えることで、全検出器の偽陰性率を大幅に向上させ、検出器を効果的にバイパスすることができる。
関連論文リスト
- 'Quis custodiet ipsos custodes?' Who will watch the watchmen? On Detecting AI-generated peer-reviews [20.030884734361358]
AIが生成したテキストが、ピアレビューを含む科学出版を損なうのではないかという懸念が高まっている。
本稿では,AIが頻繁にトークンを繰り返すことを示唆するTF(Term Frequency)モデルと,ChatGPTが再プロンプト時に同様の出力を生成するという考え方に基づくRR(Review Regeneration)モデルを紹介する。
以上の結果から,提案手法は,他のAIテキスト検出方法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-13T08:06:08Z) - RADAR: Robust AI-Text Detection via Adversarial Learning [69.5883095262619]
RADARはパラフラザーと検出器の対向訓練に基づいている。
パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。
RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
論文 参考訳(メタデータ) (2023-07-07T21:13:27Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Perception, performance, and detectability of conversational artificial
intelligence across 32 university courses [15.642614735026106]
大学レベル32科目におけるChatGPTの成績を比較した。
また,ChatGPTの成績は,多くの科目における生徒の成績と同等であることがわかった。
このツールを使用する学生や、これを盗作として扱う教育者の間では、新たなコンセンサスが高まっている。
論文 参考訳(メタデータ) (2023-05-07T10:37:51Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - GPT detectors are biased against non-native English writers [13.853577885942514]
我々は、ネイティブおよび非ネイティブな英語作家の筆記サンプルを用いて、広く使われているGPT検出器の性能を評価する。
これらの検出器は、非ネイティブな英語の筆記サンプルをAI生成と誤分類しているのに対し、ネイティブな筆記サンプルは正確に識別されている。
論文 参考訳(メタデータ) (2023-04-06T01:51:15Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Will ChatGPT get you caught? Rethinking of Plagiarism Detection [0.0]
人工知能(AI)技術の台頭と教育への影響は近年懸念が高まっている。
チャットボット、特にChatGPTを使った学術エッセイの生成は、学者の間で恐怖を呼び起こした。
この研究は、最も人気のあるAIチャットボットであるChatGPTが生み出すコンテンツの独創性を探求することを目的としている。
論文 参考訳(メタデータ) (2023-02-08T20:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。