論文の概要: CUDRT: Benchmarking the Detection Models of Human vs. Large Language Models Generated Texts
- arxiv url: http://arxiv.org/abs/2406.09056v2
- Date: Mon, 11 Nov 2024 09:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:04.448475
- Title: CUDRT: Benchmarking the Detection Models of Human vs. Large Language Models Generated Texts
- Title(参考訳): CUDRT:人間対大言語モデル生成テキストの検出モデルのベンチマーク
- Authors: Zhen Tao, Yanfang Chen, Dinghao Xi, Zhiyu Li, Wei Xu,
- Abstract要約: 大規模言語モデル(LLM)は、産業全体にわたってテキスト生成を大幅に強化した。
彼らの人間的なアウトプットは、人間とAIの作者の区別を困難にしている。
現在のベンチマークは主に静的データセットに依存しており、モデルベースの検出器の評価の有効性を制限している。
- 参考スコア(独自算出の注目度): 9.682499180341273
- License:
- Abstract: While large language models (LLMs) have greatly enhanced text generation across industries, their human-like outputs make distinguishing between human and AI authorship challenging. Although many LLM-generated text detectors exist, current benchmarks mainly rely on static datasets, limiting their effectiveness in assessing model-based detectors requiring prior training. Furthermore, these benchmarks focus on specific scenarios like question answering and text refinement and are primarily limited to English, overlooking broader linguistic applications and LLM subtleties. To address these gaps, we construct a comprehensive bilingual benchmark in Chinese and English to rigorously evaluate mainstream LLM-generated text detection methods. We categorize LLM text generation into five key operations-Create, Update, Delete, Rewrite, and Translate (CUDRT)-covering the full range of LLM activities. For each CUDRT category, we developed extensive datasets enabling thorough assessment of detection performance, incorporating the latest mainstream LLMs for each language. We also establish a robust evaluation framework to support scalable, reproducible experiments, facilitating an in-depth analysis of how LLM operations, different LLMs, datasets, and multilingual training sets impact detector performance, particularly for model-based methods. Our extensive experiments provide critical insights for optimizing LLM-generated text detectors and suggest future directions to improve detection accuracy and generalization across diverse scenarios.Source code and dataset are available at GitHub.
- Abstract(参考訳): 大規模言語モデル(LLM)は、業界全体でテキスト生成を大幅に強化しているが、人間のようなアウトプットは、人間とAIの作者の区別を困難にしている。
LLMの生成したテキスト検出器は数多く存在するが、現在のベンチマークは主に静的なデータセットに依存しており、事前のトレーニングを必要とするモデルベース検出器の評価の有効性を制限している。
さらに、これらのベンチマークは、質問応答やテキストの洗練のような特定のシナリオに焦点を当てており、主に英語に限られており、より広範な言語的応用やLLMの微妙さを見渡せる。
これらのギャップに対処するため、中国語と英語で総合的なバイリンガル・ベンチマークを構築し、主要なLLM生成テキスト検出手法を厳格に評価する。
LLM テキスト生成は,Create, Update, Delete, Rewrite, Translate (CUDRT) の5つの重要な操作に分類し,LLM の活動の全範囲を探索する。
CUDRTの各カテゴリに対して,各言語に最新のLLMを組み込んで,検出性能の徹底的な評価を可能にする広範囲なデータセットを開発した。
また、スケーラブルで再現可能な実験をサポートするための堅牢な評価フレームワークを構築し、LLM操作、異なるLLM、データセット、多言語トレーニングセットが、特にモデルベースの手法において、検出器のパフォーマンスに与える影響を詳細に分析する。
LLM生成したテキスト検出を最適化するための重要な洞察を提供し、さまざまなシナリオにわたる検出精度と一般化を改善するための今後の方向性を提案する。
関連論文リスト
- DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
我々は,現在のSOTA検出器の強度と限界を明らかにした。
DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には、コンピュータビジョンに適応したDETRのような検出モデルと組み合わせて、微調整の汎用LLMを用いて、テキスト内で人工的に生成された間隔をローカライズする。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection [6.27025292177391]
ToBlendはトークンレベルのアンサンブルテキスト生成手法であり、現在のAIコンテンツ検出アプローチの堅牢性に挑戦する。
ToBlendは、主要なAIコンテンツ検出手法の性能を著しく低下させる。
論文 参考訳(メタデータ) (2024-02-17T02:25:57Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。