論文の概要: How Reliable Are AI-Generated-Text Detectors? An Assessment Framework
Using Evasive Soft Prompts
- arxiv url: http://arxiv.org/abs/2310.05095v1
- Date: Sun, 8 Oct 2023 09:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 12:33:57.690930
- Title: How Reliable Are AI-Generated-Text Detectors? An Assessment Framework
Using Evasive Soft Prompts
- Title(参考訳): AI生成テキスト検出器の信頼性
Evasive Soft Prompts を用いた評価フレームワーク
- Authors: Tharindu Kumarage, Paras Sheth, Raha Moraffah, Joshua Garland, Huan
Liu
- Abstract要約: 本研究では,PLMに高い性能の検出器を回避できるテキストを生成する新しい手法を提案する。
提案手法は、新しいタイプのソフトプロンプトである普遍的回避プロンプトを示唆しており、このプロンプトは、検知器を誤解させる「人間のような」テキストを生成するのにPLMを導く。
我々は,最先端検出器の回避における回避ソフトプロンプトの有効性を評価するために,広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 14.175243473740727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, there has been a rapid proliferation of AI-generated text,
primarily driven by the release of powerful pre-trained language models (PLMs).
To address the issue of misuse associated with AI-generated text, various
high-performing detectors have been developed, including the OpenAI detector
and the Stanford DetectGPT. In our study, we ask how reliable these detectors
are. We answer the question by designing a novel approach that can prompt any
PLM to generate text that evades these high-performing detectors. The proposed
approach suggests a universal evasive prompt, a novel type of soft prompt,
which guides PLMs in producing "human-like" text that can mislead the
detectors. The novel universal evasive prompt is achieved in two steps: First,
we create an evasive soft prompt tailored to a specific PLM through prompt
tuning; and then, we leverage the transferability of soft prompts to transfer
the learned evasive soft prompt from one PLM to another. Employing multiple
PLMs in various writing tasks, we conduct extensive experiments to evaluate the
efficacy of the evasive soft prompts in their evasion of state-of-the-art
detectors.
- Abstract(参考訳): 近年、AI生成テキストの急速な普及は、主に強力な事前学習言語モデル(PLM)のリリースによって進められている。
ai生成テキストの誤用問題に対処するため、openai検出器やstanford detectiongptなど、さまざまな高性能検出器が開発されている。
本研究では,これらの検出器の信頼性について質問する。
我々は、PLMにこれらの高性能検出器を避けるテキストを生成するよう促す新しいアプローチを設計することで、この質問に答える。
提案手法は、新しいタイプのソフトプロンプトである普遍的回避プロンプトを示唆しており、このプロンプトは、検知器を誤解させる「人間のような」テキストを生成するためにPLMを導く。
新たなユニバーサル・エバーシブ・プロンプトは、まず、プロンプト・チューニングによって特定のplmに合わせたエバーシブ・ソフト・プロンプトを作成し、その後、学習したエバーシブ・ソフト・プロンプトを1つのplmから別のplmに転送するためにソフト・プロンプトの転送可能性を活用する。
各種の筆記タスクに複数のPLMを用いて,最先端検出器の回避における回避ソフトプロンプトの有効性を評価するため,広範囲な実験を行った。
関連論文リスト
- DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning [24.99797253885887]
このタスクを達成するための鍵は、異なる著者のスタイルを区別することにある、と我々は主張する。
DeTeCtiveは,マルチタスクの補助的,マルチレベルのコントラスト学習フレームワークである。
我々の手法はテキストエンコーダと互換性がある。
論文 参考訳(メタデータ) (2024-10-28T12:34:49Z) - Investigating the Influence of Prompt-Specific Shortcuts in AI Generated Text Detection [23.794925542322098]
我々はAIGT検出におけるプロンプト特異的ショートカットの影響を分析する。
フィードバックに基づく逆命令リスト最適化(FAILOpt)を提案する。
FAILOptは、敵対的なインコンテキストの例に基づく他の攻撃に匹敵するターゲット検出器の検出性能を効果的に低下させる。
論文 参考訳(メタデータ) (2024-06-24T02:50:09Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Large Language Models can be Guided to Evade AI-Generated Text Detection [40.7707919628752]
大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示し、一般に広く利用されている。
我々は、これらの検出器の脆弱性を評価するために、外部パラフレーズに頼るのではなく、LSMにプロンプトを付与する。
本研究では,検出器を回避するためのプロンプトを自動構築する,代用型In-Contextサンプル最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:03:25Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。