Fugu-MT 論文翻訳(概要): OUTFOX: LLM-generated Essay Detection through In-context Learning with Adversarially Generated Examples

論文の概要: OUTFOX: LLM-generated Essay Detection through In-context Learning with Adversarially Generated Examples

arxiv url: http://arxiv.org/abs/2307.11729v1
Date: Fri, 21 Jul 2023 17:40:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-24 11:43:46.701289
Title: OUTFOX: LLM-generated Essay Detection through In-context Learning with Adversarially Generated Examples
Title（参考訳）: OUTFOX: 逆生成例を用いた文脈内学習によるLLM検出
Authors: Ryuto Koike, Masahiro Kaneko, Naoaki Okazaki
Abstract要約: OUTFOXは、LLM生成テキスト検出器の堅牢性を改善する新しいフレームワークである。本フレームワークでは,検出器の予測ラベルをコンテキスト内学習の例として用いた。検出器は、逆向きに生成されたエッセイをコンテキスト内学習の例として使用し、強力な攻撃者からのエッセイを検出する。
参考スコア（独自算出の注目度）: 19.58573850767673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have achieved human-level fluency in text generation, making it difficult to distinguish between human-written and LLM-generated texts. This poses a growing risk of misuse of LLMs and demands the development of detectors to identify LLM-generated texts. However, existing detectors degrade detection accuracy by simply paraphrasing LLM-generated texts. Furthermore, the effectiveness of these detectors in real-life situations, such as when students use LLMs for writing homework assignments (e.g., essays) and quickly learn how to evade these detectors, has not been explored. In this paper, we propose OUTFOX, a novel framework that improves the robustness of LLM-generated-text detectors by allowing both the detector and the attacker to consider each other's output and apply this to the domain of student essays. In our framework, the attacker uses the detector's prediction labels as examples for in-context learning and adversarially generates essays that are harder to detect. While the detector uses the adversarially generated essays as examples for in-context learning to learn to detect essays from a strong attacker. Our experiments show that our proposed detector learned in-context from the attacker improves the detection performance on the attacked dataset by up to +41.3 point F1-score. While our proposed attacker can drastically degrade the performance of the detector by up to -57.0 point F1-score compared to the paraphrasing method.
Abstract（参考訳）: 大規模言語モデル (LLM) はテキスト生成において人間レベルの流布を達成しており、人間の書き起こしとLLM生成の区別が難しい。これはLSMを誤用するリスクが増大し、LSM生成テキストを特定するための検出器の開発が要求される。しかし、既存の検出器はLPM生成テキストを単純に言い換えることで検出精度を低下させる。さらに、学生がLLMを使って宿題(例えばエッセイ)を書いて、これらの検出器の回避方法を素早く学ぶなど、現実的な状況におけるこれらの検出器の有効性は研究されていない。本稿では,LLM生成テキスト検出器のロバスト性を向上する新しいフレームワークであるOUTFOXを提案し,検出器と攻撃器の双方が相互の出力を考慮し,これを学生エッセイの領域に適用する。本フレームワークでは,検出者の予測ラベルをコンテキスト内学習の例として使用し,検出が困難なエッセイを逆向きに生成する。検出器は、逆向きに生成されたエッセイをコンテキスト内学習の例として使用し、強力な攻撃者からのエッセイを検出する。実験の結果,攻撃者から学習したインコンテキスト検出器は,攻撃されたデータセットの検出性能を最大41.3ポイントf1-score向上させることがわかった。提案する攻撃者は, パラフレージング法と比較して-57.0点f1-scoreまで検出器の性能を劇的に低下させることができる。

関連論文リスト

Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors [4.7713095161046555]
本稿では,最新のMGT検出器の言語情報による敵攻撃に対するレジリエンスをテストするパイプラインを提案する。我々は、MGTスタイルを人文テキスト(HWT)にシフトするために、言語モデルを微調整する。これは検出器が構造的な手がかりに頼っていることを悪用し、新しい世代を検知することがより困難になる。
論文参考訳（メタデータ） (2025-05-30T12:33:30Z)
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T01:15:07Z)
A Practical Examination of AI-Generated Text Detectors for Large Language Models [25.919278893876193]
機械生成コンテンツ検出器は、様々な条件や言語モデルからそのようなテキストを識別する。本稿では、これらの主張を、これらの検出器がこれまで遭遇していなかった領域、データセット、モデルにおいて、いくつかの一般的な検出器を評価することによって、批判的に評価する。
論文参考訳（メタデータ） (2024-12-06T15:56:11Z)
DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。我々は,現在のSOTA検出器の強度と限界を明らかにした。 DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文参考訳（メタデータ） (2024-10-31T09:01:25Z)
Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-18T07:25:00Z)
RAFT: Realistic Attacks to Fool Text Detectors [16.749257564123194]
大規模言語モデル(LLM)は、様々なタスクにまたがって顕著な流速を示した。偽情報の拡散など倫理的でない応用が懸念されている。 RAFT:既存のLLM検出器に対する文法エラーのないブラックボックス攻撃について述べる。
論文参考訳（メタデータ） (2024-10-04T17:59:00Z)
Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文参考訳（メタデータ） (2024-05-07T12:57:01Z)
Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。 1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文参考訳（メタデータ） (2023-05-31T10:08:37Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文参考訳（メタデータ） (2023-03-26T21:12:36Z)
Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
TextShield: Beyond Successfully Detecting Adversarial Sentences in Text Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。従来の検出方法は、相手文に対して正しい予測を与えることができない。本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文参考訳（メタデータ） (2023-02-03T22:58:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。