論文の概要: Evaluating the Performance of AI Text Detectors, Few-Shot and Chain-of-Thought Prompting Using DeepSeek Generated Text
- arxiv url: http://arxiv.org/abs/2507.17944v1
- Date: Wed, 23 Jul 2025 21:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.625442
- Title: Evaluating the Performance of AI Text Detectors, Few-Shot and Chain-of-Thought Prompting Using DeepSeek Generated Text
- Title(参考訳): ディープシーク生成テキストを用いたAIテキスト検出器,Few-Shot,Chain-of-Thought Promptingの性能評価
- Authors: Hulayyil Alshammari, Praveen Rao,
- Abstract要約: 標準および人為的パラフレージングのようなアドリバーサ攻撃は、検出者がテキストを検出する能力を阻害する。
我々は、DeepSeekが生成したテキストを、一般的なAI Text、Content Detector AI、Copyleaks、QuillBot、GPT-2、GPTZeroの6つが一貫して認識できるかどうかを調査する。
- 参考スコア(独自算出の注目度): 2.942616054218564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have rapidly transformed the creation of written materials. LLMs have led to questions about writing integrity, thereby driving the creation of artificial intelligence (AI) detection technologies. Adversarial attacks, such as standard and humanized paraphrasing, inhibit detectors' ability to detect machine-generated text. Previous studies have mainly focused on ChatGPT and other well-known LLMs and have shown varying accuracy across detectors. However, there is a clear gap in the literature about DeepSeek, a recently published LLM. Therefore, in this work, we investigate whether six generally accessible AI detection tools -- AI Text Classifier, Content Detector AI, Copyleaks, QuillBot, GPT-2, and GPTZero -- can consistently recognize text generated by DeepSeek. The detectors were exposed to the aforementioned adversarial attacks. We also considered DeepSeek as a detector by performing few-shot prompting and chain-of-thought reasoning (CoT) for classifying AI and human-written text. We collected 49 human-authored question-answer pairs from before the LLM era and generated matching responses using DeepSeek-v3, producing 49 AI-generated samples. Then, we applied adversarial techniques such as paraphrasing and humanizing to add 196 more samples. These were used to challenge detector robustness and assess accuracy impact. While QuillBot and Copyleaks showed near-perfect performance on original and paraphrased DeepSeek text, others -- particularly AI Text Classifier and GPT-2 -- showed inconsistent results. The most effective attack was humanization, reducing accuracy to 71% for Copyleaks, 58% for QuillBot, and 52% for GPTZero. Few-shot and CoT prompting showed high accuracy, with the best five-shot result misclassifying only one of 49 samples (AI recall 96%, human recall 100%).
- Abstract(参考訳): 大規模言語モデル(LLM)は、書物の作成を急速に変化させてきた。
LLMは、整合性の記述に関する疑問を引き起こし、人工知能(AI)検出技術の開発を推進している。
標準的なパラフレーズや人為的なパラフレーズのような敵攻撃は、検知器が機械生成テキストを検出する能力を阻害する。
従来の研究は主にChatGPTや他のよく知られたLCMに焦点を合わせており、検出器間での精度が変化している。
しかし、最近出版されたLLMであるDeepSeekに関する文献には明らかなギャップがある。
そこで本研究では,AI Text Classifier, Content Detector AI, Copyleaks, QuillBot, GPT-2, GPTZeroの6つの一般的なAI検出ツールが,DeepSeekが生成したテキストを一貫して認識できるかどうかを検討する。
検出器は前述の敵の攻撃にさらされた。
私たちはDeepSeekを、AIと人文テキストを分類するための、数発のプロンプトとチェーン・オブ・シークレット推論(CoT)を実行することで、検出対象とみなした。
我々は,LLM時代以前の質問応答対49点を収集し,DeepSeek-v3を用いてマッチング応答を生成し,49個のAI生成サンプルを生成した。
次に, パラフレージングやヒューマライゼーションといった対人的手法を適用し, 196個のサンプルを加味した。
これらは検出器の堅牢性に挑戦し、精度への影響を評価するために使用された。
QuillBotとCopyleaksはオリジナルおよびパラフレーズのDeepSeekテキストでほぼ完璧なパフォーマンスを示したが、AI Text ClassifierとGPT-2は一貫性のない結果を示した。
最も効果的な攻撃は人間化であり、Copyleaksは71%、QuillBotは58%、GPTZeroは52%に精度が低下した。
Few-shotとCoTのプロンプトは精度が高く、ベスト5ショットの結果は49のサンプルのうち1つだけを誤分類した(AIリコールは96%、人間リコールは100%)。
関連論文リスト
- Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - AuthorMist: Evading AI Text Detectors with Reinforcement Learning [4.806579822134391]
AuthorMistは、AI生成したテキストを人間ライクな文章に変換する、新しい強化学習ベースのシステムだ。
AuthorMistは,本来の意味を保ちながら,AI生成テキストの検出性を効果的に低減することを示す。
論文 参考訳(メタデータ) (2025-03-10T12:41:05Z) - Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
本研究では、AI-Polished-Text Evaluationデータセットを用いて、12の最先端AIテキスト検出器を体系的に評価する。
我々の発見によると、検出器は、最小限に洗練されたテキストをAI生成としてフラグ付けし、AIの関与度を区別し、古いモデルや小さなモデルに対するバイアスを示す。
論文 参考訳(メタデータ) (2025-02-21T18:45:37Z) - ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。
本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。
以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T01:15:07Z) - DAMAGE: Detecting Adversarially Modified AI Generated Text [0.13108652488669736]
既存のAI検出器の多くが、人間化されたテキストを検出できないことを示す。
偽陽性率を低く保ちながら、人間化されたAIテキストを検出する頑健なモデルを実証する。
論文 参考訳(メタデータ) (2025-01-06T23:43:49Z) - SilverSpeak: Evading AI-Generated Text Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。
以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T06:07:32Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。