論文の概要: SKDU at De-Factify 4.0: Natural Language Features for AI-Generated Text-Detection
- arxiv url: http://arxiv.org/abs/2503.22338v1
- Date: Fri, 28 Mar 2025 11:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:40.822824
- Title: SKDU at De-Factify 4.0: Natural Language Features for AI-Generated Text-Detection
- Title(参考訳): De-Factify 4.0でのSKDU:AI生成テキスト検出のための自然言語機能
- Authors: Shrikant Malviya, Pablo Arnau-González, Miguel Arevalillo-Herráez, Stamos Katsigiannis,
- Abstract要約: NELAは、人書きテキストとAI生成テキストの区別において、RAIDARの機能を著しく上回っている。
XGBoostは最も効果的で、リッチな機能セットを活用して高い精度と一般化を実現した。
- 参考スコア(独自算出の注目度): 2.006175707670159
- License:
- Abstract: The rapid advancement of large language models (LLMs) has introduced new challenges in distinguishing human-written text from AI-generated content. In this work, we explored a pipelined approach for AI-generated text detection that includes a feature extraction step (i.e. prompt-based rewriting features inspired by RAIDAR and content-based features derived from the NELA toolkit) followed by a classification module. Comprehensive experiments were conducted on the Defactify4.0 dataset, evaluating two tasks: binary classification to differentiate human-written and AI-generated text, and multi-class classification to identify the specific generative model used to generate the input text. Our findings reveal that NELA features significantly outperform RAIDAR features in both tasks, demonstrating their ability to capture nuanced linguistic, stylistic, and content-based differences. Combining RAIDAR and NELA features provided minimal improvement, highlighting the redundancy introduced by less discriminative features. Among the classifiers tested, XGBoost emerged as the most effective, leveraging the rich feature sets to achieve high accuracy and generalisation.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、AI生成コンテンツから人書きテキストを区別する新たな課題がもたらされた。
本研究では、RAIDARにインスパイアされたプロンプトベースの書き起こし機能と、NELAツールキットから派生したコンテンツベース機能とを含む、AI生成テキスト検出のためのパイプライン化されたアプローチについて検討した。
Defactify4.0データセットで包括的な実験を行い、人書きテキストとAI生成テキストを区別するためのバイナリ分類と、入力テキストを生成するために使用される特定の生成モデルを特定するためのマルチクラス分類の2つのタスクを評価した。
その結果,NELAは両タスクにおいてRAIDARよりも優れており,言語的,スタイリスティック,コンテンツに基づく相違点を捉える能力を示した。
RAIDARとNELAの組み合わせは最小限の改善を提供し、差別的でない特徴によって導入された冗長性を強調した。
テストされた分類器のうち、XGBoostは最も効果的で、リッチな特徴セットを活用して高い精度と一般化を実現した。
関連論文リスト
- DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning [24.99797253885887]
このタスクを達成するための鍵は、異なる著者のスタイルを区別することにある、と我々は主張する。
DeTeCtiveは,マルチタスクの補助的,マルチレベルのコントラスト学習フレームワークである。
我々の手法はテキストエンコーダと互換性がある。
論文 参考訳(メタデータ) (2024-10-28T12:34:49Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection [6.27025292177391]
ToBlendはトークンレベルのアンサンブルテキスト生成手法であり、現在のAIコンテンツ検出アプローチの堅牢性に挑戦する。
ToBlendは、主要なAIコンテンツ検出手法の性能を著しく低下させる。
論文 参考訳(メタデータ) (2024-02-17T02:25:57Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - Feature-aware conditional GAN for category text generation [6.609628372021442]
カテゴリーテキスト生成は様々な自然言語処理タスクに有用である。
テキストGANには、離散性、トレーニング不安定性、モード崩壊、多様性の欠如、コントロール容易性など、いくつかの問題がある。
本稿では,制御可能なカテゴリテキスト生成のための新しいGANフレームワークであるFA-GANを提案する。
論文 参考訳(メタデータ) (2023-08-02T04:43:54Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - Controllable Text Generation with Focused Variation [71.07811310799664]
Focused-Variation Network (FVN) は言語生成を制御する新しいモデルである。
FVNは、コードブック内の各属性に対する非結合なラテント空間を学習し、制御性と多様性の両方を可能にする。
我々は、注釈付きコンテンツとスタイルを持つ2つのテキスト生成データセット上でFVNを評価し、自動評価と人的評価により、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-09-25T06:31:06Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。