論文の概要: AI Generated Text Detection Using Instruction Fine-tuned Large Language and Transformer-Based Models
- arxiv url: http://arxiv.org/abs/2507.05157v1
- Date: Mon, 07 Jul 2025 16:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.506724
- Title: AI Generated Text Detection Using Instruction Fine-tuned Large Language and Transformer-Based Models
- Title(参考訳): 命令微調整大言語と変圧器モデルを用いたAI生成テキスト検出
- Authors: Chinnappa Guggilla, Budhaditya Roy, Trupti Ramdas Chavan, Abdul Rahman, Edward Bowen,
- Abstract要約: 大規模言語モデル (LLM) は文法的に正し、意味的に意味のあるテキストを生成する。
LLMは、非常に現実的なフィッシングメールの作成、フェイクニュースの拡散、サイバー犯罪の自動化のためのコードの生成、不正な科学論文の執筆に誤用されている。
言語、統計、機械学習、アンサンブルに基づくアプローチを用いて、機械が生成したテキストと人間によるコンテンツとを区別する様々な試みがなされている。
- 参考スコア(独自算出の注目度): 0.2796197251957245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) possess an extraordinary capability to produce text that is not only coherent and contextually relevant but also strikingly similar to human writing. They adapt to various styles and genres, producing content that is both grammatically correct and semantically meaningful. Recently, LLMs have been misused to create highly realistic phishing emails, spread fake news, generate code to automate cyber crime, and write fraudulent scientific articles. Additionally, in many real-world applications, the generated content including style and topic and the generator model are not known beforehand. The increasing prevalence and sophistication of artificial intelligence (AI)-generated texts have made their detection progressively more challenging. Various attempts have been made to distinguish machine-generated text from human-authored content using linguistic, statistical, machine learning, and ensemble-based approaches. This work focuses on two primary objectives Task-A, which involves distinguishing human-written text from machine-generated text, and Task-B, which attempts to identify the specific LLM model responsible for the generation. Both of these tasks are based on fine tuning of Generative Pre-trained Transformer (GPT_4o-mini), Large Language Model Meta AI (LLaMA) 3 8B, and Bidirectional Encoder Representations from Transformers (BERT). The fine-tuned version of GPT_4o-mini and the BERT model has achieved accuracies of 0.9547 for Task-A and 0.4698 for Task-B.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一貫性があり、文脈的に関係があるだけでなく、人間の文章と著しく類似したテキストを生成するという異常な能力を持っている。
様々なスタイルやジャンルに適応し、文法的に正しい内容と意味論的に意味のある内容を生み出す。
近年、LLMは、非常に現実的なフィッシングメールの作成、フェイクニュースの拡散、サイバー犯罪の自動化のためのコードの生成、不正な科学論文の執筆に誤用されている。
さらに、多くの実世界のアプリケーションでは、スタイルやトピック、ジェネレータモデルを含む生成されたコンテンツが事前に分かっていない。
人工知能(AI)が生成するテキストの普及と高度化により、その検出は徐々に困難になっている。
言語、統計、機械学習、アンサンブルに基づくアプローチを用いて、機械が生成したテキストと人間によるコンテンツとを区別する様々な試みがなされている。
この研究は、人文テキストと機械生成テキストを区別するタスクAと、生成に責任を持つ特定のLCMモデルを識別しようとするタスクBの2つの主要な目的に焦点を当てている。
これらのタスクは、GPT_4o-mini、Large Language Model Meta AI (LLaMA) 3 8B、Bidirectional Encoder Representations from Transformer (BERT)の微調整に基づいている。
GPT_4o-miniとBERTモデルの微調整版は、Task-Aでは0.9547、Task-Bでは0.4698の精度を達成した。
関連論文リスト
- AI-generated Text Detection: A Multifaceted Approach to Binary and Multiclass Classification [0.13392361199400257]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
このような機能は、偽ニュース生成、スパムメールの作成、学術的課題における誤用など、潜在的な誤用につながる。
最適化されたモデルとより単純なバリエーションの2つのニューラルアーキテクチャを提案する。
タスクAでは、最適化されたニューラルアーキテクチャが0.994ドルのF1$スコアで5位、タスクBでは、単純なニューラルアーキテクチャが0.627のF1$スコアで5位にランクインした。
論文 参考訳(メタデータ) (2025-05-15T09:28:06Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - Generative AI Text Classification using Ensemble LLM Approaches [0.12483023446237698]
大規模言語モデル(LLM)は、さまざまなAIや自然言語処理タスクで素晴らしいパフォーマンスを示している。
本研究では,異なる学習済みLLMから確率を生成するアンサンブルニューラルモデルを提案する。
AIと人間の生成したテキストを区別する最初のタスクとして、私たちのモデルは第5位と第13位にランクされた。
論文 参考訳(メタデータ) (2023-09-14T14:41:46Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - PALM: Pre-training an Autoencoding&Autoregressive Language Model for
Context-conditioned Generation [92.7366819044397]
自己指導型事前学習は、自然言語の理解と生成のための強力な技術として登場した。
本研究は,大規模未ラベルコーパス上で自己エンコーディングと自己回帰言語モデルを共同で事前学習する新しいスキームをPALMに提示する。
広範な実験により、PALMは様々な言語生成ベンチマークにおいて、新しい最先端の結果を達成することが示されている。
論文 参考訳(メタデータ) (2020-04-14T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。