論文の概要: StyloAI: Distinguishing AI-Generated Content with Stylometric Analysis
- arxiv url: http://arxiv.org/abs/2405.10129v1
- Date: Thu, 16 May 2024 14:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:02:34.213971
- Title: StyloAI: Distinguishing AI-Generated Content with Stylometric Analysis
- Title(参考訳): StyloAI: スティロメトリ分析によるAI生成コンテンツの排除
- Authors: Chidimma Opara,
- Abstract要約: 本研究では,データ駆動型モデルであるStyloAIを提案する。
StyloAIは、AuTextificationデータセットとUltra Educationデータセットのテストセットで、それぞれ81%と98%の精度を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The emergence of large language models (LLMs) capable of generating realistic texts and images has sparked ethical concerns across various sectors. In response, researchers in academia and industry are actively exploring methods to distinguish AI-generated content from human-authored material. However, a crucial question remains: What are the unique characteristics of AI-generated text? Addressing this gap, this study proposes StyloAI, a data-driven model that uses 31 stylometric features to identify AI-generated texts by applying a Random Forest classifier on two multi-domain datasets. StyloAI achieves accuracy rates of 81% and 98% on the test set of the AuTextification dataset and the Education dataset, respectively. This approach surpasses the performance of existing state-of-the-art models and provides valuable insights into the differences between AI-generated and human-authored texts.
- Abstract(参考訳): 現実的なテキストや画像を生成することができる大規模言語モデル(LLM)の出現は、様々な分野における倫理的懸念を引き起こしている。
これに対し、学術と産業の研究者たちは、AIが生成するコンテンツを人間によって認可された物質と区別する方法を積極的に検討している。
しかし、重要な疑問が残る: AI生成したテキストのユニークな特徴は何ですか?
このギャップに対処するため,2つのマルチドメインデータセットにランダムフォレスト分類器を適用することで,31のテクスチャ特徴を用いてAI生成テキストを識別するデータ駆動モデルであるStyloAIを提案する。
StyloAIは、AuTextificationデータセットとUltra Educationデータセットのテストセットで、それぞれ81%と98%の精度を達成している。
このアプローチは、既存の最先端モデルのパフォーマンスを超越し、AI生成されたテキストと人間によるテキストの違いに関する貴重な洞察を提供する。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text [4.902089836908786]
WhosAIは、与えられた入力テキストが人間かAIによって生成されたかを予測するために設計された3重ネットワークコントラスト学習フレームワークである。
提案するフレームワークは,チューリングテストとオーサリングの両タスクにおいて,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T15:44:56Z) - Who Writes the Review, Human or AI? [0.36498648388765503]
本研究では,AIによる書評と人間による書評を正確に区別する手法を提案する。
提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別する。
実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
論文 参考訳(メタデータ) (2024-05-30T17:38:44Z) - Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing
AI-Generated Text [0.0]
私の研究は、AI生成テキストと人間の文章を正確に区別するために、最先端のハイブリッドディープラーニングモデルを使用することを調査します。
さまざまなソースからAIと人文からなる慎重に選択されたデータセットを利用し、それぞれに指示をタグ付けして、堅牢な方法論を適用しました。
論文 参考訳(メタデータ) (2023-11-27T06:26:53Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Controllable Text Generation with Focused Variation [71.07811310799664]
Focused-Variation Network (FVN) は言語生成を制御する新しいモデルである。
FVNは、コードブック内の各属性に対する非結合なラテント空間を学習し、制御性と多様性の両方を可能にする。
我々は、注釈付きコンテンツとスタイルを持つ2つのテキスト生成データセット上でFVNを評価し、自動評価と人的評価により、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-09-25T06:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。