論文の概要: CUDRT: Benchmarking the Detection of Human vs. Large Language Models Generated Texts
- arxiv url: http://arxiv.org/abs/2406.09056v1
- Date: Thu, 13 Jun 2024 12:43:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:05:18.517259
- Title: CUDRT: Benchmarking the Detection of Human vs. Large Language Models Generated Texts
- Title(参考訳): CUDRT:人間対大言語モデル生成テキストのベンチマーク
- Authors: Zhen Tao, Zhiyu Li, Dinghao Xi, Wei Xu,
- Abstract要約: 本稿では,主要なAI生成テキスト検出器を評価するために,中国語と英語の総合的なベンチマークを構築した。
テキスト生成は、Create、Update、Delete、Rewrite、Translateの5つの異なる操作に分類します。
各CUDRTカテゴリに対して,検出性能を徹底的に評価するための広範囲なデータセットを開発した。
- 参考スコア(独自算出の注目度): 10.027843402296678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of large language models (LLMs) has significantly enhanced text generation capabilities across various industries. However, these models' ability to generate human-like text poses substantial challenges in discerning between human and AI authorship. Despite the effectiveness of existing AI-generated text detectors, their development is hindered by the lack of comprehensive, publicly available benchmarks. Current benchmarks are limited to specific scenarios, such as question answering and text polishing, and predominantly focus on English texts, failing to capture the diverse applications and linguistic nuances of LLMs. To address these limitations, this paper constructs a comprehensive bilingual benchmark in both Chinese and English to evaluate mainstream AI-generated text detectors. We categorize LLM text generation into five distinct operations: Create, Update, Delete, Rewrite, and Translate (CUDRT), encompassing all current LLMs activities. We also establish a robust benchmark evaluation framework to support scalable and reproducible experiments. For each CUDRT category, we have developed extensive datasets to thoroughly assess detector performance. By employing the latest mainstream LLMs specific to each language, our datasets provide a thorough evaluation environment. Extensive experimental results offer critical insights for optimizing AI-generated text detectors and suggest future research directions to improve detection accuracy and generalizability across various scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及は、様々な産業でテキスト生成能力を大幅に向上させた。
しかしながら、これらのモデルが人間のようなテキストを生成する能力は、人間とAIの著者の区別に重大な課題をもたらす。
既存のAI生成テキスト検出器の有効性にもかかわらず、その開発は包括的な公開ベンチマークの欠如によって妨げられている。
現在のベンチマークは、質問応答やテキスト研磨のような特定のシナリオに限定されており、主に英語のテキストに焦点を当てており、LLMの多様な応用や言語的ニュアンスを捉えていない。
これらの制約に対処するために、中国語と英語の両方で包括的なバイリンガル・ベンチマークを構築し、主流のAI生成テキスト検出器を評価する。
LLMのテキスト生成は、Create, Update, Delete, Rewrite, Translate(CUDRT)の5つの異なる操作に分類する。
また、スケーラブルで再現可能な実験をサポートするために、堅牢なベンチマーク評価フレームワークを構築しました。
各CUDRTカテゴリに対して,検出性能を徹底的に評価するための広範囲なデータセットを開発した。
各言語固有の最新のLLMを利用することで、データセットは徹底的な評価環境を提供する。
大規模な実験結果は、AI生成したテキスト検出器を最適化するための重要な洞察を与え、様々なシナリオにおける検出精度と一般化性を改善するための今後の研究方向を提案する。
関連論文リスト
- "I know myself better, but not really greatly": Using LLMs to Detect and Explain LLM-Generated Texts [10.454446545249096]
大規模言語モデル(LLM)は、人間のようなテキストを生成する際、印象的な能力を示した。
本稿では,LLMによる人為的テキストの検出と説明機能について検討する。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - VilBias: A Study of Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges [2.2751168722976587]
VLBiasは、最先端のLarge Language Models(LLM)とVision-Language Models(VLM)を活用して、ニュースコンテンツの言語的および視覚的バイアスを検出するフレームワークである。
本稿では,多様なニュースソースからのテキストコンテンツと対応する画像からなるマルチモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-22T15:05:30Z) - Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。
生成したテキストの強力な検出器を開発することがますます重要になっている。
この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文 参考訳(メタデータ) (2024-11-09T18:27:15Z) - GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。