論文の概要: RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors
- arxiv url: http://arxiv.org/abs/2405.07940v2
- Date: Mon, 10 Jun 2024 15:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 23:54:54.091879
- Title: RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors
- Title(参考訳): RAID: 機械生成テキスト検出器のロバスト評価のための共有ベンチマーク
- Authors: Liam Dugan, Alyssa Hwang, Filip Trhlik, Josh Magnus Ludan, Andrew Zhu, Hainiu Xu, Daphne Ippolito, Chris Callison-Burch,
- Abstract要約: 我々は,機械生成テキスト検出のための最大かつ最も困難なベンチマークデータセットであるRAIDを提案する。
RAIDには、11モデルにまたがる600万世代、ドメイン8、敵攻撃11、デコード戦略4がある。
現在の検出器は、敵攻撃、サンプリング戦略のバリエーション、繰り返し罰則、目に見えない生成モデルによって容易に騙される。
- 参考スコア(独自算出の注目度): 43.51854260935079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many commercial and open-source models claim to detect machine-generated text with extremely high accuracy (99% or more). However, very few of these detectors are evaluated on shared benchmark datasets and even when they are, the datasets used for evaluation are insufficiently challenging-lacking variations in sampling strategy, adversarial attacks, and open-source generative models. In this work we present RAID: the largest and most challenging benchmark dataset for machine-generated text detection. RAID includes over 6 million generations spanning 11 models, 8 domains, 11 adversarial attacks and 4 decoding strategies. Using RAID, we evaluate the out-of-domain and adversarial robustness of 8 open- and 4 closed-source detectors and find that current detectors are easily fooled by adversarial attacks, variations in sampling strategies, repetition penalties, and unseen generative models. We release our data along with a leaderboard to encourage future research.
- Abstract(参考訳): 多くの商用およびオープンソースモデルは、非常に高い精度(99%以上)で機械生成テキストを検出すると主張している。
しかし、これらの検出装置のごく一部は、共有ベンチマークデータセットで評価されており、たとえそれであっても、サンプリング戦略、敵攻撃、オープンソースの生成モデルにおいて、評価に使用されるデータセットは不十分に難題である。
本研究では,機械生成テキスト検出のための最大かつ最も困難なベンチマークデータセットであるRAIDを紹介する。
RAIDには、11モデルにまたがる600万世代、ドメイン8、敵攻撃11、デコード戦略4がある。
RAIDを用いて,8つのクローズドソース検出器と4つのクローズドソース検出器のドメイン外および逆方向のロバスト性を評価し,現在の検出器は,敵攻撃やサンプリング戦略のバリエーション,繰り返し罰則,予期せぬ生成モデルによって容易に騙されることがわかった。
将来の研究を促進するために、リーダーボードとともにデータを公開しています。
関連論文リスト
- DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
我々は,現在のSOTA検出器の強度と限界を明らかにした。
DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - Humanizing the Machine: Proxy Attacks to Mislead LLM Detectors [31.18762591875725]
我々は、大規模言語モデル(LLM)を懸命に妥協するプロキシ・アタック戦略を導入する。
提案手法は, 復号相における強化学習 (RL) の微調整による小型言語モデル (SLM) を活用することで, 情報源モデルを攻撃する。
以上の結果から,プロキシアタック戦略は主要な検出器を効果的に騙し,複数のデータセットで平均70.4%のAUROC低下を招いた。
論文 参考訳(メタデータ) (2024-10-25T00:35:00Z) - Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts [0.0]
AIフラグメントを備えた膨大な数の検出器とコレクションが出現し、いくつかの検出方法は認識品質を99.9%まで向上させた。
検出器は実際に非常に信頼性が高いのか、あるいは評価データセットの質が低いことから高いベンチマークスコアを得るのか?
本稿では,AI生成コンテンツ検出専用のコンペからのデータセットを体系的にレビューし,AI生成フラグメントを含むデータセットの品質を評価する手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T17:59:57Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - A new algorithm for Subgroup Set Discovery based on Information Gain [58.720142291102135]
Information Gained Subgroup Discovery (IGSD)は、パターン発見のための新しいSDアルゴリズムである。
IGSDと最先端の2つのSDアルゴリズム(FSSDとSSD++)を比較した。
IGSDはFSSDやSSD++よりもOR値が優れており、パターンとターゲットへの依存度が高い。
論文 参考訳(メタデータ) (2023-07-26T21:42:34Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。