論文の概要: The Impact of Prompts on Zero-Shot Detection of AI-Generated Text
- arxiv url: http://arxiv.org/abs/2403.20127v1
- Date: Fri, 29 Mar 2024 11:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:54:04.650591
- Title: The Impact of Prompts on Zero-Shot Detection of AI-Generated Text
- Title(参考訳): AI生成テキストのゼロショット検出におけるプロンプトの影響
- Authors: Kaito Taguchi, Yujie Gu, Kouichi Sakurai,
- Abstract要約: チャットベースのアプリケーションでは、ユーザーは一般的にAI生成テキストのプロンプトを入力し、利用する。
本稿では,AI生成テキストの検出精度に対するプロンプトの影響を実証的に分析するための評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.337364406035291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there have been significant advancements in the development of Large Language Models (LLMs). While their practical applications are now widespread, their potential for misuse, such as generating fake news and committing plagiarism, has posed significant concerns. To address this issue, detectors have been developed to evaluate whether a given text is human-generated or AI-generated. Among others, zero-shot detectors stand out as effective approaches that do not require additional training data and are often likelihood-based. In chat-based applications, users commonly input prompts and utilize the AI-generated texts. However, zero-shot detectors typically analyze these texts in isolation, neglecting the impact of the original prompts. It is conceivable that this approach may lead to a discrepancy in likelihood assessments between the text generation phase and the detection phase. So far, there remains an unverified gap concerning how the presence or absence of prompts impacts detection accuracy for zero-shot detectors. In this paper, we introduce an evaluative framework to empirically analyze the impact of prompts on the detection accuracy of AI-generated text. We assess various zero-shot detectors using both white-box detection, which leverages the prompt, and black-box detection, which operates without prompt information. Our experiments reveal the significant influence of prompts on detection accuracy. Remarkably, compared with black-box detection without prompts, the white-box methods using prompts demonstrate an increase in AUC of at least $0.1$ across all zero-shot detectors tested. Code is available: \url{https://github.com/kaito25atugich/Detector}.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の発展が著しい。
彼らの実践的応用は広く普及しているが、偽ニュースを発生させ、盗作を犯すといった誤用の可能性は、重大な懸念を招いている。
この問題に対処するため、与えられたテキストが人間生成されているか、AI生成されているかを評価するために検出器が開発された。
中でもゼロショット検出器は、追加のトレーニングデータを必要としない効果的なアプローチであり、しばしば確率ベースである。
チャットベースのアプリケーションでは、ユーザーは一般的にAI生成テキストのプロンプトを入力し、利用する。
しかし、ゼロショット検出器は典型的にはこれらのテキストを分離して分析し、元のプロンプトの影響を無視する。
このアプローチは、テキスト生成フェーズと検出フェーズの間の可能性評価の相違につながる可能性があると考えられる。
これまでのところ、プロンプトの有無がゼロショット検出器の検出精度にどのように影響するかについては、未確認のギャップが残っている。
本稿では,AI生成テキストの検出精度に対するプロンプトの影響を実証的に分析する評価フレームワークを提案する。
我々は、プロンプトを利用するホワイトボックス検出と、プロンプト情報なしで動作するブラックボックス検出の両方を用いて、様々なゼロショット検出器を評価する。
実験の結果,プロンプトが検出精度に与える影響が明らかとなった。
注目すべきは、プロンプトのないブラックボックス検出と比較して、プロンプトを用いたホワイトボックス法は、試験された全ゼロショット検出器で少なくとも0.1ドル以上のAUCの増加を示す。
コードは: \url{https://github.com/kaito25atugich/Detector} で入手できる。
関連論文リスト
- Evading AI-Generated Content Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。
以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T06:07:32Z) - Navigating the Shadows: Unveiling Effective Disturbances for Modern AI Content Detectors [24.954755569786396]
AIテキスト検出は、人間と機械が生成したコンテンツを区別するために現れた。
近年の研究では、これらの検出システムは、しばしば頑丈さを欠き、摂動テキストを効果的に区別する難しさを欠いていることが示されている。
我々の研究は、非公式な文章と専門的な文章の両方で現実世界のシナリオをシミュレートし、現在の検出器のアウト・オブ・ボックスのパフォーマンスを探求する。
論文 参考訳(メタデータ) (2024-06-13T08:37:01Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Evade ChatGPT Detectors via A Single Space [17.07852413707166]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分散的なギャップがあるという仮定に基づいて構築されている。
検知器は人間の生成したテキストとAI生成したテキストのセマンティックスとスタイリスティックなギャップを効果的に識別できない。
検出を回避するためのSpaceInfi戦略を提案する。
論文 参考訳(メタデータ) (2023-07-05T18:48:28Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。