論文の概要: RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors
- arxiv url: http://arxiv.org/abs/2405.07940v2
- Date: Mon, 10 Jun 2024 15:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 23:54:54.091879
- Title: RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors
- Title(参考訳): RAID: 機械生成テキスト検出器のロバスト評価のための共有ベンチマーク
- Authors: Liam Dugan, Alyssa Hwang, Filip Trhlik, Josh Magnus Ludan, Andrew Zhu, Hainiu Xu, Daphne Ippolito, Chris Callison-Burch,
- Abstract要約: 我々は,機械生成テキスト検出のための最大かつ最も困難なベンチマークデータセットであるRAIDを提案する。
RAIDには、11モデルにまたがる600万世代、ドメイン8、敵攻撃11、デコード戦略4がある。
現在の検出器は、敵攻撃、サンプリング戦略のバリエーション、繰り返し罰則、目に見えない生成モデルによって容易に騙される。
- 参考スコア(独自算出の注目度): 43.51854260935079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many commercial and open-source models claim to detect machine-generated text with extremely high accuracy (99% or more). However, very few of these detectors are evaluated on shared benchmark datasets and even when they are, the datasets used for evaluation are insufficiently challenging-lacking variations in sampling strategy, adversarial attacks, and open-source generative models. In this work we present RAID: the largest and most challenging benchmark dataset for machine-generated text detection. RAID includes over 6 million generations spanning 11 models, 8 domains, 11 adversarial attacks and 4 decoding strategies. Using RAID, we evaluate the out-of-domain and adversarial robustness of 8 open- and 4 closed-source detectors and find that current detectors are easily fooled by adversarial attacks, variations in sampling strategies, repetition penalties, and unseen generative models. We release our data along with a leaderboard to encourage future research.
- Abstract(参考訳): 多くの商用およびオープンソースモデルは、非常に高い精度(99%以上)で機械生成テキストを検出すると主張している。
しかし、これらの検出装置のごく一部は、共有ベンチマークデータセットで評価されており、たとえそれであっても、サンプリング戦略、敵攻撃、オープンソースの生成モデルにおいて、評価に使用されるデータセットは不十分に難題である。
本研究では,機械生成テキスト検出のための最大かつ最も困難なベンチマークデータセットであるRAIDを紹介する。
RAIDには、11モデルにまたがる600万世代、ドメイン8、敵攻撃11、デコード戦略4がある。
RAIDを用いて,8つのクローズドソース検出器と4つのクローズドソース検出器のドメイン外および逆方向のロバスト性を評価し,現在の検出器は,敵攻撃やサンプリング戦略のバリエーション,繰り返し罰則,予期せぬ生成モデルによって容易に騙されることがわかった。
将来の研究を促進するために、リーダーボードとともにデータを公開しています。
関連論文リスト
- Adversarial Attacks on AI-Generated Text Detection Models: A Token Probability-Based Approach Using Embeddings [14.150011713654331]
本研究では,Fast-DetectGPTなどの検出モデルに対する新たなテキスト逆攻撃を提案する。
この手法では、AI生成したテキストの再構築を目的として、データ摂動の埋め込みモデルを用いて、テキストの真の起源を検出する可能性を低減する。
論文 参考訳(メタデータ) (2025-01-31T10:06:27Z) - GenAI Content Detection Task 3: Cross-Domain Machine-Generated Text Detection Challenge [71.69373986176839]
モデルが巨大な、固定された、多数のドメインとLLMから生成されたテキストを検出できるかどうかを問う。
3ヶ月の間に、23の検出器を提出した9つのチームによって、我々のタスクが試みられた。
その結果, RAID から生成したテキストに対して, 5% の偽陽性率を維持しながら, 精度が 99% を超えることが判明した。
論文 参考訳(メタデータ) (2025-01-15T16:21:09Z) - A Practical Examination of AI-Generated Text Detectors for Large Language Models [25.919278893876193]
機械生成コンテンツ検出器は、様々な条件や言語モデルからそのようなテキストを識別する。
本稿では、これらの主張を、これらの検出器がこれまで遭遇していなかった領域、データセット、モデルにおいて、いくつかの一般的な検出器を評価することによって、批判的に評価する。
論文 参考訳(メタデータ) (2024-12-06T15:56:11Z) - DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
我々は,現在のSOTA検出器の強度と限界を明らかにした。
DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - Humanizing the Machine: Proxy Attacks to Mislead LLM Detectors [31.18762591875725]
我々は、大規模言語モデル(LLM)を懸命に妥協するプロキシ・アタック戦略を導入する。
提案手法は, 復号相における強化学習 (RL) の微調整による小型言語モデル (SLM) を活用することで, 情報源モデルを攻撃する。
以上の結果から,プロキシアタック戦略は主要な検出器を効果的に騙し,複数のデータセットで平均70.4%のAUROC低下を招いた。
論文 参考訳(メタデータ) (2024-10-25T00:35:00Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。