論文の概要: A Comprehensive Dataset for Human vs. AI Generated Text Detection
- arxiv url: http://arxiv.org/abs/2510.22874v1
- Date: Sun, 26 Oct 2025 23:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.404879
- Title: A Comprehensive Dataset for Human vs. AI Generated Text Detection
- Title(参考訳): 人間対AI生成テキスト検出のための包括的データセット
- Authors: Rajarshi Roy, Nasrin Imanpour, Ashhar Aziz, Shashwat Bajpai, Gurpreet Singh, Shwetangshu Biswas, Kapil Wanaskar, Parth Patwa, Subhankar Ghosh, Shreyas Dixit, Nilesh Ranjan Pal, Vipula Rawte, Ritvik Garimella, Gaytri Jena, Amit Sheth, Vasu Sharma, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amitava Das,
- Abstract要約: ニューヨーク・タイムズ紙の記事から58,000件以上のテキストサンプルからなる包括的データセットを提案する。
このデータセットは、オリジナルの記事をプロンプトとして抽象化し、完全な人間による物語を提供する。
AI生成テキストと人書きテキストを区別し、AIテキストを8.92%の精度で生成モデルに関連付けるという2つの重要なタスクのベースライン結果を確立します。
- 参考スコア(独自算出の注目度): 23.0218614564443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has led to increasingly human-like AI-generated text, raising concerns about content authenticity, misinformation, and trustworthiness. Addressing the challenge of reliably detecting AI-generated text and attributing it to specific models requires large-scale, diverse, and well-annotated datasets. In this work, we present a comprehensive dataset comprising over 58,000 text samples that combine authentic New York Times articles with synthetic versions generated by multiple state-of-the-art LLMs including Gemma-2-9b, Mistral-7B, Qwen-2-72B, LLaMA-8B, Yi-Large, and GPT-4-o. The dataset provides original article abstracts as prompts, full human-authored narratives. We establish baseline results for two key tasks: distinguishing human-written from AI-generated text, achieving an accuracy of 58.35\%, and attributing AI texts to their generating models with an accuracy of 8.92\%. By bridging real-world journalistic content with modern generative models, the dataset aims to catalyze the development of robust detection and attribution methods, fostering trust and transparency in the era of generative AI. Our dataset is available at: https://huggingface.co/datasets/gsingh1-py/train.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、人間のようなAI生成テキストが増加し、コンテンツの信頼性、誤情報、信頼性への懸念が高まっている。
AI生成したテキストを確実に検出し、特定のモデルに関連付けるという課題に対処するには、大規模で多種多様な、注釈付きデータセットが必要である。
本研究では,ニューヨーク・タイムズ紙の本記事と,Gemma-2-9b,Mistral-7B,Qwen-2-72B,LLaMA-8B,Yi-Large,GPT-4-oを含む複数の最先端LCMから生成される合成版を組み合わせた58,000以上のテキストサンプルからなる包括的データセットを提案する。
このデータセットは、オリジナルの記事をプロンプトとして抽象化し、完全な人間による物語を提供する。
我々は、AI生成テキストと人書きテキストを区別し、58.35\%の精度を達成し、AIテキストを8.92\%の精度で生成モデルに帰属させる2つの主要なタスクのベースライン結果を確立する。
このデータセットは、現実のジャーナリストコンテンツを現代的な生成モデルでブリッジすることで、堅牢な検出と帰属手法の開発を触媒し、生成AIの時代における信頼と透明性を促進することを目指している。
私たちのデータセットは、https://huggingface.co/datasets/gsingh1-py/trainで利用可能です。
関連論文リスト
- Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - LLMTrace: A Corpus for Classification and Fine-Grained Localization of AI-Written Text [39.58172554437255]
LLMTraceは、AIによるテキスト検出のための、大規模なバイリンガル(英語とロシア語)コーパスである。
私たちのデータセットは、従来のフルテキストバイナリ分類(人間対AI)と、AI生成間隔検出の新しいタスクの2つの重要なタスクをサポートするように設計されています。
LLMTraceは、よりニュアンスで実用的なAI検出モデルの次世代をトレーニングし、評価するための重要なリソースになると考えています。
論文 参考訳(メタデータ) (2025-09-25T14:59:43Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - RU-AI: A Large Multimodal Dataset for Machine-Generated Content Detection [11.265512559447986]
本稿では,テキスト,画像,音声中の機械生成コンテンツを堅牢かつ効果的に検出するための大規模マルチモーダルデータセットであるRU-AIを紹介する。
私たちのデータセットは、Flickr8K、COCO、Places205という3つの大きな公開データセットに基づいて構築されています。
その結果,既存のモデルでは,データセットの正確かつ堅牢な検出に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-07T12:58:14Z) - StyloAI: Distinguishing AI-Generated Content with Stylometric Analysis [0.0]
本研究では,データ駆動型モデルであるStyloAIを提案する。
StyloAIは、AuTextificationデータセットとUltra Educationデータセットのテストセットで、それぞれ81%と98%の精度を達成している。
論文 参考訳(メタデータ) (2024-05-16T14:28:01Z) - RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic
Features for Distinguishing AI-Generated and Human-Written Texts [0.8437187555622164]
本稿では、意味論と構文という2つの異なる側面からAIが生成するテキスト検出の問題について考察する。
マルチリンガルタスクとモノリンガルタスクの両方において,AI生成テキストと人書きテキストを高い精度で区別できるAIモデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T00:40:17Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。