論文の概要: OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples
- arxiv url: http://arxiv.org/abs/2307.11729v3
- Date: Sun, 18 Feb 2024 12:25:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 06:25:16.196542
- Title: OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples
- Title(参考訳): OUTFOX: 逆生成例を用いた文脈学習によるLLM生成エッセイ検出
- Authors: Ryuto Koike, Masahiro Kaneko, Naoaki Okazaki
- Abstract要約: OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
- 参考スコア(独自算出の注目度): 44.118047780553006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved human-level fluency in text
generation, making it difficult to distinguish between human-written and
LLM-generated texts. This poses a growing risk of misuse of LLMs and demands
the development of detectors to identify LLM-generated texts. However, existing
detectors lack robustness against attacks: they degrade detection accuracy by
simply paraphrasing LLM-generated texts. Furthermore, a malicious user might
attempt to deliberately evade the detectors based on detection results, but
this has not been assumed in previous studies. In this paper, we propose
OUTFOX, a framework that improves the robustness of LLM-generated-text
detectors by allowing both the detector and the attacker to consider each
other's output. In this framework, the attacker uses the detector's prediction
labels as examples for in-context learning and adversarially generates essays
that are harder to detect, while the detector uses the adversarially generated
essays as examples for in-context learning to learn to detect essays from a
strong attacker. Experiments in the domain of student essays show that the
proposed detector improves the detection performance on the attacker-generated
texts by up to +41.3 points F1-score. Furthermore, the proposed detector shows
a state-of-the-art detection performance: up to 96.9 points F1-score, beating
existing detectors on non-attacked texts. Finally, the proposed attacker
drastically degrades the performance of detectors by up to -57.0 points
F1-score, massively outperforming the baseline paraphrasing method for evading
detection.
- Abstract(参考訳): 大規模言語モデル (LLM) はテキスト生成において人間レベルの流布を達成しており、人間の書き起こしとLLM生成の区別が難しい。
これはLSMを誤用するリスクが増大し、LSM生成テキストを特定するための検出器の開発が要求される。
しかし、既存の検出器は攻撃に対する堅牢性に欠けており、単にllm生成テキストをパラフレージングすることで検出精度を低下させる。
さらに、悪意のあるユーザは、検出結果に基づいて意図的に検出を回避しようとするかもしれないが、これは以前の研究では想定されていなかった。
本稿では,検出器と攻撃者の両方が互いの出力を考慮できるように,llm生成テキスト検出器のロバスト性を向上させるフレームワークであるexfoxを提案する。
このフレームワークでは、検知器の予測ラベルをコンテキスト内学習の例として使用し、検出しにくいエッセイを逆向きに生成する一方、検出器は逆向きに生成されたエッセイをコンテキスト内学習の例として使用して、強い攻撃者からのエッセイを検出する。
学生エッセイの領域での実験では、提案された検出器は攻撃者が生成したテキストの検出性能を+41.3ポイントF1スコアまで改善することを示した。
さらに、提案した検出器は、96.9ポイントのF1スコアまでの最先端検出性能を示し、非攻撃テキスト上で既存の検出器を打ち負かす。
最後に、提案する攻撃者は検出器の性能を-57.0点f1-scoreまで劇的に低下させ、検出を回避するためのベースラインパラフレージング法を大きく上回っている。
関連論文リスト
- Stumbling Blocks: Stress Testing the Robustness of Machine-Generated
Text Detectors Under Attacks [48.32116554279759]
一般的な機械生成テキスト検出器の強靭性について,編集,パラフレージング,プロンプト,コジェネレーションの様々なカテゴリの攻撃下で検討する。
我々の攻撃はジェネレータLSMへの限られたアクセスを前提としており、異なる予算レベルで異なる攻撃に対する検出器の性能を比較する。
全ての検知器を平均すると、全ての攻撃で性能は35%低下する。
論文 参考訳(メタデータ) (2024-02-18T16:36:00Z) - Hidding the Ghostwriters: An Adversarial Evaluation of AI-Generated
Student Essay Detection [29.433764586753956]
大規模言語モデル(LLM)は、テキスト生成タスクにおいて顕著な機能を示した。
これらのモデルの利用には、盗作行為、偽ニュースの普及、教育演習における問題など、固有のリスクが伴う。
本稿では,AI生成した学生エッセイデータセットであるAIG-ASAPを構築し,このギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-02-01T08:11:56Z) - How You Prompt Matters! Even Task-Oriented Constraints in Instructions
Affect LLM-Generated Text Detection [44.118047780553006]
タスク指向の制約 -- 命令に自然に含まれ、検出回避とは無関係な制約 -- でさえ、既存の検出器は検出性能に大きなばらつきを持つ。
実験の結果,命令を複数回生成したり,命令を言い換えたりすることで,命令によって生成されたテキストの標準偏差(SD)が有意に大きい(SDは14.4F1スコアまで)ことがわかった。
論文 参考訳(メタデータ) (2023-11-14T18:32:52Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。