論文の概要: OUTFOX: LLM-generated Essay Detection through In-context Learning with
Adversarially Generated Examples
- arxiv url: http://arxiv.org/abs/2307.11729v2
- Date: Mon, 4 Sep 2023 10:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 04:07:16.517933
- Title: OUTFOX: LLM-generated Essay Detection through In-context Learning with
Adversarially Generated Examples
- Title(参考訳): OUTFOX: 逆生成例を用いた文脈内学習によるLLM検出
- Authors: Ryuto Koike, Masahiro Kaneko, Naoaki Okazaki
- Abstract要約: OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,F1スコアにおいて,攻撃者が生成したテキストの検出性能を最大41.3ポイント向上することがわかった。
この検出器は最先端の検知性能を示し、F1スコアで96.9ポイントまで到達し、非攻撃されたテキスト上で既存の検出器を打ち破った。
- 参考スコア(独自算出の注目度): 44.118047780553006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved human-level fluency in text
generation, making it difficult to distinguish between human-written and
LLM-generated texts. This poses a growing risk of misuse of LLMs and demands
the development of detectors to identify LLM-generated texts. However, existing
detectors lack robustness against attacks: they degrade detection accuracy by
simply paraphrasing LLM-generated texts. Furthermore, a malicious user might
attempt to deliberately evade the detectors based on detection results, but
this has not been assumed in previous studies. In this paper, we propose
OUTFOX, a framework that improves the robustness of LLM-generated-text
detectors by allowing both the detector and the attacker to consider each
other's output. In this framework, the attacker uses the detector's prediction
labels as examples for in-context learning and adversarially generates essays
that are harder to detect, while the detector uses the adversarially generated
essays as examples for in-context learning to learn to detect essays from a
strong attacker. Experiments in the domain of student essays show that the
proposed detector improves the detection performance on the attacker-generated
texts by up to +41.3 points in F1-score. Furthermore, the proposed detector
shows a state-of-the-art detection performance: up to 96.9 points in F1-score,
beating existing detectors on non-attacked texts. Finally, the proposed
attacker drastically degrades the performance of detectors by up to -57.0
points F1-score, massively outperforming the baseline paraphrasing method for
evading detection.
- Abstract(参考訳): 大規模言語モデル (LLM) はテキスト生成において人間レベルの流布を達成しており、人間の書き起こしとLLM生成の区別が難しい。
これはLSMを誤用するリスクが増大し、LSM生成テキストを特定するための検出器の開発が要求される。
しかし、既存の検出器は攻撃に対する堅牢性に欠けており、単にllm生成テキストをパラフレージングすることで検出精度を低下させる。
さらに、悪意のあるユーザは、検出結果に基づいて意図的に検出を回避しようとするかもしれないが、これは以前の研究では想定されていなかった。
本稿では,検出器と攻撃者の両方が互いの出力を考慮できるように,llm生成テキスト検出器のロバスト性を向上させるフレームワークであるexfoxを提案する。
このフレームワークでは、検知器の予測ラベルをコンテキスト内学習の例として使用し、検出しにくいエッセイを逆向きに生成する一方、検出器は逆向きに生成されたエッセイをコンテキスト内学習の例として使用して、強い攻撃者からのエッセイを検出する。
学生エッセイの領域における実験により,提案手法は,f1-scoreにおいて最大41.3ポイントの精度で攻撃者生成テキストの検出性能を向上させることが示された。
さらに,F1スコアで96.9ポイントの最先端検出性能を示し,非攻撃テキスト上で既存の検出器を打ち破った。
最後に、提案する攻撃者は検出器の性能を-57.0点f1-scoreまで劇的に低下させ、検出を回避するためのベースラインパラフレージング法を大きく上回っている。
関連論文リスト
- DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
我々は,現在のSOTA検出器の強度と限界を明らかにした。
DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - RAFT: Realistic Attacks to Fool Text Detectors [16.749257564123194]
大規模言語モデル(LLM)は、様々なタスクにまたがって顕著な流速を示した。
偽情報の拡散など倫理的でない応用が懸念されている。
RAFT:既存のLLM検出器に対する文法エラーのないブラックボックス攻撃について述べる。
論文 参考訳(メタデータ) (2024-10-04T17:59:00Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。