論文の概要: DUPE: Detection Undermining via Prompt Engineering for Deepfake Text
- arxiv url: http://arxiv.org/abs/2404.11408v1
- Date: Wed, 17 Apr 2024 14:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 13:45:12.011598
- Title: DUPE: Detection Undermining via Prompt Engineering for Deepfake Text
- Title(参考訳): DUPE:ディープフェイクテキストのプロンプトエンジニアリングによる検出
- Authors: James Weichert, Chinecherem Dimobi,
- Abstract要約: 我々は3つの異なるAIテキスト検出器(透かし、ZeroGPT、GPTZero-againstの人間とAI生成エッセイ)を評価した。
透かしは偽陽性率が高く,ZeroGPTは偽陽性率も偽陰性率も高いことがわかった。
我々は、ChatGPT 3.5を用いて、元のAI生成テキストを言い換えることで、全ての検出器の偽陰性率を大幅に向上することができ、これにより、検出器を効果的にバイパスすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) become increasingly commonplace, concern about distinguishing between human and AI text increases as well. The growing power of these models is of particular concern to teachers, who may worry that students will use LLMs to write school assignments. Facing a technology with which they are unfamiliar, teachers may turn to publicly-available AI text detectors. Yet the accuracy of many of these detectors has not been thoroughly verified, posing potential harm to students who are falsely accused of academic dishonesty. In this paper, we evaluate three different AI text detectors-Kirchenbauer et al. watermarks, ZeroGPT, and GPTZero-against human and AI-generated essays. We find that watermarking results in a high false positive rate, and that ZeroGPT has both high false positive and false negative rates. Further, we are able to significantly increase the false negative rate of all detectors by using ChatGPT 3.5 to paraphrase the original AI-generated texts, thereby effectively bypassing the detectors.
- Abstract(参考訳): 大規模言語モデル(LLM)がますます一般的になるにつれて、人間とAIのテキストの区別に関する懸念も高まる。
これらのモデルの力の増大は、生徒がLLMを使って学校の課題を書くことを心配する教師にとって特に懸念される。
知らない技術に直面すると、教師は公に利用可能なAIテキスト検出装置に目を向けるかもしれない。
しかし、これらの検出器の精度は十分に検証されていないため、学業上の不正を非難された学生に潜在的に害を与える可能性がある。
本稿では,3種類のAIテキスト検出器(Kirchenbauer et al watermarks, ZeroGPT, GPTZero-against HumanおよびAI生成エッセイ)を評価する。
透かしは偽陽性率が高く,ZeroGPTは偽陽性率も偽陰性率も高いことがわかった。
さらに、ChatGPT 3.5を用いて、元のAI生成テキストを言い換えることで、全検出器の偽陰性率を大幅に向上させ、検出器を効果的にバイパスすることができる。
関連論文リスト
- ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。
本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。
以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T01:15:07Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [60.09665704993751]
本稿では,AI生成コンテンツ分類器におけるグループ固有のしきい値最適化アルゴリズムであるFairOPTを紹介する。
我々のアプローチは、属性(例えば、テキストの長さと書き込みスタイル)に基づいて、データをサブグループに分割し、各グループの決定しきい値を学ぶ。
我々のフレームワークは、AIが生成する出力検出において、より堅牢で公平な分類基準の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z) - People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text [37.36534911201806]
私たちは、300のノンフィクションの英語記事を読むために注釈を雇い、それを人書きまたはAI生成とラベル付けします。
実験の結果,AI生成テキストの検出において,LLMを頻繁に使用するアノテータが優れていることがわかった。
注釈付きデータセットとコードを公開し、AI生成テキストの人的および自動検出に関する将来の研究を刺激します。
論文 参考訳(メタデータ) (2025-01-26T19:31:34Z) - SilverSpeak: Evading AI-Generated Text Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。
以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T06:07:32Z) - RADAR: Robust AI-Text Detection via Adversarial Learning [69.5883095262619]
RADARはパラフラザーと検出器の対向訓練に基づいている。
パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。
RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
論文 参考訳(メタデータ) (2023-07-07T21:13:27Z) - Perception, performance, and detectability of conversational artificial
intelligence across 32 university courses [15.642614735026106]
大学レベル32科目におけるChatGPTの成績を比較した。
また,ChatGPTの成績は,多くの科目における生徒の成績と同等であることがわかった。
このツールを使用する学生や、これを盗作として扱う教育者の間では、新たなコンセンサスが高まっている。
論文 参考訳(メタデータ) (2023-05-07T10:37:51Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - GPT detectors are biased against non-native English writers [13.853577885942514]
我々は、ネイティブおよび非ネイティブな英語作家の筆記サンプルを用いて、広く使われているGPT検出器の性能を評価する。
これらの検出器は、非ネイティブな英語の筆記サンプルをAI生成と誤分類しているのに対し、ネイティブな筆記サンプルは正確に識別されている。
論文 参考訳(メタデータ) (2023-04-06T01:51:15Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。