Fugu-MT 論文翻訳(概要): Large Language Models can be Guided to Evade AI-Generated Text Detection

論文の概要: Large Language Models can be Guided to Evade AI-Generated Text Detection

arxiv url: http://arxiv.org/abs/2305.10847v5
Date: Thu, 14 Dec 2023 12:21:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-16 04:53:41.713032
Title: Large Language Models can be Guided to Evade AI-Generated Text Detection
Title（参考訳）: 大規模言語モデルによるAI生成テキスト検出の回避
Authors: Ning Lu, Shengcai Liu, Rui He, Qi Wang, Yew-Soon Ong, Ke Tang
Abstract要約: 大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示し、一般に広く利用されている。我々は、これらの検出器の脆弱性を評価するために、外部パラフレーズに頼るのではなく、LSMにプロンプトを付与する。本研究では,検出器を回避するためのプロンプトを自動構築する,代用型In-Contextサンプル最適化手法を提案する。
参考スコア（独自算出の注目度）: 43.20137621161661
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown remarkable performance in various tasks and have been extensively utilized by the public. However, the increasing concerns regarding the misuse of LLMs, such as plagiarism and spamming, have led to the development of multiple detectors, including fine-tuned classifiers and statistical methods. In this study, we equip LLMs with prompts, rather than relying on an external paraphraser, to evaluate the vulnerability of these detectors. We propose a novel Substitution-based In-Context example Optimization method (SICO) to automatically construct prompts for evading the detectors. SICO is cost-efficient as it requires only 40 human-written examples and a limited number of LLM inferences to generate a prompt. Moreover, once a task-specific prompt has been constructed, it can be universally used against a wide range of detectors. Extensive experiments across three real-world tasks demonstrate that SICO significantly outperforms the paraphraser baselines and enables GPT-3.5 to successfully evade six detectors, decreasing their AUC by 0.5 on average. Furthermore, a comprehensive human evaluation as well as a validation experiment in the wild show that the SICO-generated text achieves human-level readability and task completion rates. Finally, the strong performance of SICO exhibits its potential as a reliable evaluation tool for future detectors. The codes and data are located on https://github.com/ColinLu50/Evade-GPT-Detector.
Abstract（参考訳）: 大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示し、一般に広く利用されている。しかし、盗作やスパムといったllmの誤用に関する懸念が高まり、微調整された分類器や統計的手法を含む複数の検出器の開発につながった。本研究では,これらの検出器の脆弱性を評価するために,外部パラフラサーに頼るのではなく,LCMにプロンプトを付与する。本稿では,検出器を回避するためのプロンプトを自動的に構築する新しい置換型インコンテキスト・サンプル最適化手法を提案する。 SICOは40の人手による例と、プロンプトを生成するのに限られた数のLLM推論を必要とするため、コスト効率が高い。さらに、タスク固有のプロンプトが構築されれば、幅広い検出器に対して普遍的に使用することができる。 3つの実世界のタスクにわたる大規模な実験により、SICOはパラフラザーベースラインを著しく上回り、GPT-3.5は6つの検出器を回避し、平均0.5のAUCを減少させることができた。さらに、総合的な人的評価と、野生での検証実験により、SICO生成したテキストが人間レベルの可読性とタスク完了率を達成することを示す。最後に、sicoの強力な性能は将来の検出器の信頼性評価ツールとしての可能性を示している。コードとデータはhttps://github.com/ColinLu50/Evade-GPT-Detectorにある。

関連論文リスト

Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。我々は,現在のSOTA検出器の強度と限界を明らかにした。 DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文参考訳（メタデータ） (2024-10-31T09:01:25Z)
Zero-Shot Machine-Generated Text Detection Using Mixture of Large Language Models [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。それぞれの強みを組み合わせるための理論的な新しいアプローチを提案する。種々のジェネレータLSMを用いた実験により,検出のロバスト性を効果的に向上することが示唆された。
論文参考訳（メタデータ） (2024-09-11T20:55:12Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文参考訳（メタデータ） (2023-10-13T07:18:53Z)
How Reliable Are AI-Generated-Text Detectors? An Assessment Framework Using Evasive Soft Prompts [14.175243473740727]
本研究では,PLMに高い性能の検出器を回避できるテキストを生成する新しい手法を提案する。提案手法は、新しいタイプのソフトプロンプトである普遍的回避プロンプトを示唆しており、このプロンプトは、検知器を誤解させる「人間のような」テキストを生成するのにPLMを導く。我々は,最先端検出器の回避における回避ソフトプロンプトの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2023-10-08T09:53:46Z)
OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文参考訳（メタデータ） (2023-07-21T17:40:47Z)
Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。 1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文参考訳（メタデータ） (2023-05-31T10:08:37Z)
Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。 DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文参考訳（メタデータ） (2023-03-23T16:29:27Z)
Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。