論文の概要: Investigating the Influence of Prompt-Specific Shortcuts in AI Generated Text Detection
- arxiv url: http://arxiv.org/abs/2406.16275v1
- Date: Mon, 24 Jun 2024 02:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:13:09.887208
- Title: Investigating the Influence of Prompt-Specific Shortcuts in AI Generated Text Detection
- Title(参考訳): AI生成テキスト検出におけるプロンプト特化ショートカットの影響の検討
- Authors: Choonghyun Park, Hyuhng Joon Kim, Junyeob Kim, Youna Kim, Taeuk Kim, Hyunsoo Cho, Hwiyeol Jo, Sang-goo Lee, Kang Min Yoo,
- Abstract要約: 我々はAIGT検出におけるプロンプト特異的ショートカットの影響を分析する。
フィードバックに基づく逆命令リスト最適化(FAILOpt)を提案する。
FAILOptは、敵対的なインコンテキストの例に基づく他の攻撃に匹敵するターゲット検出器の検出性能を効果的に低下させる。
- 参考スコア(独自算出の注目度): 23.794925542322098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI Generated Text (AIGT) detectors are developed with texts from humans and LLMs of common tasks. Despite the diversity of plausible prompt choices, these datasets are generally constructed with a limited number of prompts. The lack of prompt variation can introduce prompt-specific shortcut features that exist in data collected with the chosen prompt, but do not generalize to others. In this paper, we analyze the impact of such shortcuts in AIGT detection. We propose Feedback-based Adversarial Instruction List Optimization (FAILOpt), an attack that searches for instructions deceptive to AIGT detectors exploiting prompt-specific shortcuts. FAILOpt effectively drops the detection performance of the target detector, comparable to other attacks based on adversarial in-context examples. We also utilize our method to enhance the robustness of the detector by mitigating the shortcuts. Based on the findings, we further train the classifier with the dataset augmented by FAILOpt prompt. The augmented classifier exhibits improvements across generation models, tasks, and attacks. Our code will be available at https://github.com/zxcvvxcz/FAILOpt.
- Abstract(参考訳): AI生成テキスト(AIGT)検出器は、人間のテキストと共通タスクのLLMを使って開発されている。
妥当なプロンプトの選択の多様性にもかかわらず、これらのデータセットは通常、限られた数のプロンプトで構築される。
プロンプト変動の欠如は、選択されたプロンプトで収集されたデータに存在するプロンプト固有のショートカット機能を導入することができるが、他のプロンプトに一般化しない。
本稿では,AIGT検出におけるこのようなショートカットの影響を解析する。
本稿では,AIGT検出器が検出する命令をプロンプト固有のショートカットを利用して検索する攻撃であるFAILOpt(Adversarial Instruction List Optimization)を提案する。
FAILOptは、敵対的なインコンテキストの例に基づく他の攻撃に匹敵するターゲット検出器の検出性能を効果的に低下させる。
また,ショートカットを緩和することで検出器の堅牢性を高めるために,本手法を利用した。
この結果に基づき、FAILOptプロンプトによって強化されたデータセットを用いて分類器をさらに訓練する。
拡張分類器は、世代モデル、タスク、アタックにまたがって改善されている。
私たちのコードはhttps://github.com/zxcvvxcz/FAILOpt.comで公開されます。
関連論文リスト
- Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - How Reliable Are AI-Generated-Text Detectors? An Assessment Framework
Using Evasive Soft Prompts [14.175243473740727]
本研究では,PLMに高い性能の検出器を回避できるテキストを生成する新しい手法を提案する。
提案手法は、新しいタイプのソフトプロンプトである普遍的回避プロンプトを示唆しており、このプロンプトは、検知器を誤解させる「人間のような」テキストを生成するのにPLMを導く。
我々は,最先端検出器の回避における回避ソフトプロンプトの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-10-08T09:53:46Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - Large Language Models can be Guided to Evade AI-Generated Text Detection [40.7707919628752]
大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示し、一般に広く利用されている。
我々は、これらの検出器の脆弱性を評価するために、外部パラフレーズに頼るのではなく、LSMにプロンプトを付与する。
本研究では,検出器を回避するためのプロンプトを自動構築する,代用型In-Contextサンプル最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:03:25Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - "That Is a Suspicious Reaction!": Interpreting Logits Variation to
Detect NLP Adversarial Attacks [0.2999888908665659]
敵攻撃は、現在の機械学習研究で直面する大きな課題である。
本研究は, 逆文例のモデルに依存しない検出法を提案する。
論文 参考訳(メタデータ) (2022-04-10T09:24:41Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Quickest Intruder Detection for Multiple User Active Authentication [74.5256211285431]
我々は,Multiple-user Quickest Intruder Detection (MQID)アルゴリズムを定式化する。
より少ない観測サンプルで侵入者検出を行うデータ効率のシナリオにアルゴリズムを拡張した。
顔のモダリティに基づく2つのAAデータセットに対する提案手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-06-21T21:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。