論文の概要: Evade ChatGPT Detectors via A Single Space
- arxiv url: http://arxiv.org/abs/2307.02599v2
- Date: Fri, 13 Oct 2023 17:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:26:22.104226
- Title: Evade ChatGPT Detectors via A Single Space
- Title(参考訳): 単一空間を用いたEvade ChatGPT検出器
- Authors: Shuyang Cai and Wanyun Cui
- Abstract要約: 既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分散的なギャップがあるという仮定に基づいて構築されている。
検知器は人間の生成したテキストとAI生成したテキストのセマンティックスとスタイリスティックなギャップを効果的に識別できない。
検出を回避するためのSpaceInfi戦略を提案する。
- 参考スコア(独自算出の注目度): 17.07852413707166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ChatGPT brings revolutionary social value but also raises concerns about the
misuse of AI-generated text. Consequently, an important question is how to
detect whether texts are generated by ChatGPT or by human. Existing detectors
are built upon the assumption that there are distributional gaps between
human-generated and AI-generated text. These gaps are typically identified
using statistical information or classifiers. Our research challenges the
distributional gap assumption in detectors. We find that detectors do not
effectively discriminate the semantic and stylistic gaps between
human-generated and AI-generated text. Instead, the "subtle differences", such
as an extra space, become crucial for detection. Based on this discovery, we
propose the SpaceInfi strategy to evade detection. Experiments demonstrate the
effectiveness of this strategy across multiple benchmarks and detectors. We
also provide a theoretical explanation for why SpaceInfi is successful in
evading perplexity-based detection. And we empirically show that a phenomenon
called token mutation causes the evasion for language model-based detectors.
Our findings offer new insights and challenges for understanding and
constructing more applicable ChatGPT detectors.
- Abstract(参考訳): ChatGPTは革命的な社会的価値をもたらすが、AI生成テキストの誤用も懸念する。
したがって、重要な疑問は、ChatGPTによってテキストが生成されるか、人間によって生成されるかを検出することである。
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分散的なギャップがあるという仮定に基づいて構築されている。
これらのギャップは一般に統計情報や分類器を用いて識別される。
我々の研究は検出器における分布ギャップの仮定に挑戦する。
検知器は人間生成テキストとAI生成テキストのセマンティックスとスタイリスティックなギャップを効果的に識別できない。
代わりに、余剰空間のような「部分差」が検出に不可欠となる。
この発見に基づいて,検出を回避するSpaceInfi戦略を提案する。
実験では、複数のベンチマークと検出器でこの戦略の有効性を示す。
また,spaceinfiが過度検出の回避に成功している理由を理論的に説明する。
そして、トークン変異と呼ばれる現象が言語モデルに基づく検出器の回避を引き起こすことを実証的に示す。
より応用性の高いChatGPT検出器の理解と構築のための新たな知見と課題を提供する。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Navigating the Shadows: Unveiling Effective Disturbances for Modern AI Content Detectors [24.954755569786396]
AIテキスト検出は、人間と機械が生成したコンテンツを区別するために現れた。
近年の研究では、これらの検出システムは、しばしば頑丈さを欠き、摂動テキストを効果的に区別する難しさを欠いていることが示されている。
我々の研究は、非公式な文章と専門的な文章の両方で現実世界のシナリオをシミュレートし、現在の検出器のアウト・オブ・ボックスのパフォーマンスを探求する。
論文 参考訳(メタデータ) (2024-06-13T08:37:01Z) - The Impact of Prompts on Zero-Shot Detection of AI-Generated Text [4.337364406035291]
チャットベースのアプリケーションでは、ユーザーは一般的にAI生成テキストのプロンプトを入力し、利用する。
本稿では,AI生成テキストの検出精度に対するプロンプトの影響を実証的に分析するための評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-29T11:33:34Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。