論文の概要: WETBench: A Benchmark for Detecting Task-Specific Machine-Generated Text on Wikipedia
- arxiv url: http://arxiv.org/abs/2507.03373v1
- Date: Fri, 04 Jul 2025 08:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.708023
- Title: WETBench: A Benchmark for Detecting Task-Specific Machine-Generated Text on Wikipedia
- Title(参考訳): WETBench: Wikipediaでタスク特異的な機械生成テキストを検出するベンチマーク
- Authors: Gerrit Quaremba, Elizabeth Black, Denny Vrandečić, Elena Simperl,
- Abstract要約: 既存の研究は主にジェネリックジェネレーションタスクにおけるMGT検出器を評価する。
MGT検出のための多言語,マルチジェネレータ,タスク固有ベンチマークを提案する。
設定によって、トレーニングベースの検出器は平均精度78%、ゼロショット検出器は平均58%に達する。
- 参考スコア(独自算出の注目度): 2.255682336735152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given Wikipedia's role as a trusted source of high-quality, reliable content, concerns are growing about the proliferation of low-quality machine-generated text (MGT) produced by large language models (LLMs) on its platform. Reliable detection of MGT is therefore essential. However, existing work primarily evaluates MGT detectors on generic generation tasks rather than on tasks more commonly performed by Wikipedia editors. This misalignment can lead to poor generalisability when applied in real-world Wikipedia contexts. We introduce WETBench, a multilingual, multi-generator, and task-specific benchmark for MGT detection. We define three editing tasks, empirically grounded in Wikipedia editors' perceived use cases for LLM-assisted editing: Paragraph Writing, Summarisation, and Text Style Transfer, which we implement using two new datasets across three languages. For each writing task, we evaluate three prompts, generate MGT across multiple generators using the best-performing prompt, and benchmark diverse detectors. We find that, across settings, training-based detectors achieve an average accuracy of 78%, while zero-shot detectors average 58%. These results show that detectors struggle with MGT in realistic generation scenarios and underscore the importance of evaluating such models on diverse, task-specific data to assess their reliability in editor-driven contexts.
- Abstract(参考訳): 高品質で信頼性の高いコンテンツソースとしてのウィキペディアの役割を考えると、プラットフォーム上で大きな言語モデル(LLM)が生成する低品質の機械生成テキスト(MGT)の拡散に対する懸念が高まっている。
したがって、MGTの信頼性の高い検出が不可欠である。
しかし、既存の研究は、ウィキペディアの編集者が一般的に行うタスクではなく、ジェネリックジェネレーションタスクのMGT検出器を主に評価している。
このミスアライメントは、現実世界のウィキペディアの文脈で適用された場合、一般化性が低下する可能性がある。
We introduced WETBench, a multilingual, multi-generator, and task-specific benchmark for MGT detection。
筆者らは,3言語にまたがる2つの新しいデータセットを用いて,パラグラフライティング,要約,テキストスタイル転送という,ウィキペディア編集者のLLM支援編集用ユースケースを実証的に基礎づけた3つの編集タスクを定義した。
書き込みタスク毎に3つのプロンプトの評価を行い、最も優れたプロンプトを用いて複数のジェネレータ間でMGTを生成し、多様な検出器をベンチマークする。
設定によって、トレーニングベースの検出器は平均精度78%、ゼロショット検出器は平均58%に達する。
これらの結果から,検出器は実際の生成シナリオにおいてMGTと競合し,その信頼性を評価するために,多種多様なタスク固有データに基づいてモデルを評価することが重要であることが示された。
関連論文リスト
- GenAI Content Detection Task 3: Cross-Domain Machine-Generated Text Detection Challenge [71.69373986176839]
モデルが巨大な、固定された、多数のドメインとLLMから生成されたテキストを検出できるかどうかを問う。
3ヶ月の間に、23の検出器を提出した9つのチームによって、我々のタスクが試みられた。
その結果, RAID から生成したテキストに対して, 5% の偽陽性率を維持しながら, 精度が 99% を超えることが判明した。
論文 参考訳(メタデータ) (2025-01-15T16:21:09Z) - On the Generalization and Adaptation Ability of Machine-Generated Text Detectors in Academic Writing [23.434925348283617]
本研究では,MGT検出器の一般化と適応性について,学術書誌に特有の3つの重要な側面で検討する。
ドメイン内設定とドメイン間設定の両方において、バイナリ分類および帰属タスクのための様々な検出器の性能をベンチマークする。
本研究は,MGT検出器の多種多様なシナリオにおける一般化と適応性に関する知見を提供し,ロバストで適応的な検出システム構築の基礎を築いた。
論文 参考訳(メタデータ) (2024-12-23T03:30:34Z) - M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。