論文の概要: OUTFOX: LLM-generated Essay Detection through In-context Learning with
Adversarially Generated Examples
- arxiv url: http://arxiv.org/abs/2307.11729v1
- Date: Fri, 21 Jul 2023 17:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 11:43:46.701289
- Title: OUTFOX: LLM-generated Essay Detection through In-context Learning with
Adversarially Generated Examples
- Title(参考訳): OUTFOX: 逆生成例を用いた文脈内学習によるLLM検出
- Authors: Ryuto Koike, Masahiro Kaneko, Naoaki Okazaki
- Abstract要約: OUTFOXは、LLM生成テキスト検出器の堅牢性を改善する新しいフレームワークである。
本フレームワークでは,検出器の予測ラベルをコンテキスト内学習の例として用いた。
検出器は、逆向きに生成されたエッセイをコンテキスト内学習の例として使用し、強力な攻撃者からのエッセイを検出する。
- 参考スコア(独自算出の注目度): 19.58573850767673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved human-level fluency in text
generation, making it difficult to distinguish between human-written and
LLM-generated texts. This poses a growing risk of misuse of LLMs and demands
the development of detectors to identify LLM-generated texts. However, existing
detectors degrade detection accuracy by simply paraphrasing LLM-generated
texts. Furthermore, the effectiveness of these detectors in real-life
situations, such as when students use LLMs for writing homework assignments
(e.g., essays) and quickly learn how to evade these detectors, has not been
explored. In this paper, we propose OUTFOX, a novel framework that improves the
robustness of LLM-generated-text detectors by allowing both the detector and
the attacker to consider each other's output and apply this to the domain of
student essays. In our framework, the attacker uses the detector's prediction
labels as examples for in-context learning and adversarially generates essays
that are harder to detect. While the detector uses the adversarially generated
essays as examples for in-context learning to learn to detect essays from a
strong attacker. Our experiments show that our proposed detector learned
in-context from the attacker improves the detection performance on the attacked
dataset by up to +41.3 point F1-score. While our proposed attacker can
drastically degrade the performance of the detector by up to -57.0 point
F1-score compared to the paraphrasing method.
- Abstract(参考訳): 大規模言語モデル (LLM) はテキスト生成において人間レベルの流布を達成しており、人間の書き起こしとLLM生成の区別が難しい。
これはLSMを誤用するリスクが増大し、LSM生成テキストを特定するための検出器の開発が要求される。
しかし、既存の検出器はLPM生成テキストを単純に言い換えることで検出精度を低下させる。
さらに、学生がLLMを使って宿題(例えばエッセイ)を書いて、これらの検出器の回避方法を素早く学ぶなど、現実的な状況におけるこれらの検出器の有効性は研究されていない。
本稿では,LLM生成テキスト検出器のロバスト性を向上する新しいフレームワークであるOUTFOXを提案し,検出器と攻撃器の双方が相互の出力を考慮し,これを学生エッセイの領域に適用する。
本フレームワークでは,検出者の予測ラベルをコンテキスト内学習の例として使用し,検出が困難なエッセイを逆向きに生成する。
検出器は、逆向きに生成されたエッセイをコンテキスト内学習の例として使用し、強力な攻撃者からのエッセイを検出する。
実験の結果,攻撃者から学習したインコンテキスト検出器は,攻撃されたデータセットの検出性能を最大41.3ポイントf1-score向上させることがわかった。
提案する攻撃者は, パラフレージング法と比較して-57.0点f1-scoreまで検出器の性能を劇的に低下させることができる。
関連論文リスト
- Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Stumbling Blocks: Stress Testing the Robustness of Machine-Generated
Text Detectors Under Attacks [48.32116554279759]
一般的な機械生成テキスト検出器の強靭性について,編集,パラフレージング,プロンプト,コジェネレーションの様々なカテゴリの攻撃下で検討する。
我々の攻撃はジェネレータLSMへの限られたアクセスを前提としており、異なる予算レベルで異なる攻撃に対する検出器の性能を比較する。
全ての検知器を平均すると、全ての攻撃で性能は35%低下する。
論文 参考訳(メタデータ) (2024-02-18T16:36:00Z) - Hidding the Ghostwriters: An Adversarial Evaluation of AI-Generated
Student Essay Detection [29.433764586753956]
大規模言語モデル(LLM)は、テキスト生成タスクにおいて顕著な機能を示した。
これらのモデルの利用には、盗作行為、偽ニュースの普及、教育演習における問題など、固有のリスクが伴う。
本稿では,AI生成した学生エッセイデータセットであるAIG-ASAPを構築し,このギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-02-01T08:11:56Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。