論文の概要: A Lightweight Approach to Detection of AI-Generated Texts Using Stylometric Features
- arxiv url: http://arxiv.org/abs/2511.21744v1
- Date: Sat, 22 Nov 2025 08:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.199571
- Title: A Lightweight Approach to Detection of AI-Generated Texts Using Stylometric Features
- Title(参考訳): スティロメトリ特徴を用いたAI生成テキスト検出への軽量アプローチ
- Authors: Sergey K. Aityan, William Claster, Karthik Sai Emani, Sohni Rais, Thy Tran,
- Abstract要約: 我々は、軽量検出器クラスで最高の性能を実現する軽量なアプローチであるNEULIFを紹介する。
提案手法では、まずテキストをテクスチャと可読性に分解し、その後、コンパクト畳み込みニューラルネットワーク(CNN)やランダムフォレスト(RF)によって分類する。
モデルはCNNで97%の精度(0.95F1)、ランダムフォレストで95%の精度(0.94F1)を達成し、高い精度とリコールを示し、ROC-AUCのスコアはそれぞれ99.5%と95%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing number of AI-generated texts raise serious concerns. Most existing approaches to AI-generated text detection rely on fine-tuning large transformer models or building ensembles, which are computationally expensive and often provide limited generalization across domains. Existing lightweight alternatives achieved significantly lower accuracy on large datasets. We introduce NEULIF, a lightweight approach that achieves best performance in the lightweight detector class, that does not require extensive computational power and provides high detection accuracy. In our approach, a text is first decomposed into stylometric and readability features which are then used for classification by a compact Convolutional Neural Network (CNN) or Random Forest (RF). Evaluated and tested on the Kaggle AI vs. Human corpus, our models achieve 97% accuracy (~ 0.95 F1) for CNN and 95% accuracy (~ 0.94 F1) for the Random Forest, demonstrating high precision and recall, with ROC-AUC scores of 99.5% and 95%, respectively. The CNN (~ 25 MB) and Random Forest (~ 10.6 MB) models are orders of magnitude smaller than transformer-based ensembles and can be run efficiently on standard CPU devices, without sacrificing accuracy.This study also highlights the potential of such models for broader applications across languages, domains, and streaming contexts, showing that simplicity, when guided by structural insights, can rival complexity in AI-generated content detection.
- Abstract(参考訳): AIが生成するテキストの増加は、深刻な懸念を引き起こす。
既存のAI生成テキスト検出のアプローチのほとんどは、微調整された大きなトランスフォーマーモデルやアンサンブルの構築に依存している。
既存の軽量な代替手段は、大規模なデータセットで大幅に精度を下げた。
我々は、軽量検出器クラスで最高の性能を実現する軽量なアプローチであるNEULIFを導入し、計算能力を大きく必要とせず、高い検出精度を提供する。
提案手法では,まずテキストをテクスチャと可読性に分解し,それをコンパクトな畳み込みニューラルネットワーク (CNN) やランダムフォレスト (RF) によって分類する。
我々のモデルは、Kaggle AI vs. Human corpusで評価されテストされ、CNNで97%の精度(約0.95 F1)、ランダムフォレストで95%の精度(約0.94 F1)を達成し、それぞれ99.5%と95%のROC-AUCスコアで高い精度とリコールを示す。
CNN (~25 MB) とランダムフォレスト (~10.6 MB) モデルは、トランスフォーマーベースのアンサンブルよりも桁違いに小さく、精度を犠牲にすることなく標準CPUデバイス上で効率的に実行できる。本研究では、言語、ドメイン、ストリーミングコンテキストにわたる幅広いアプリケーションに対するそのようなモデルの可能性を強調し、構造的な洞察によって導かれるシンプルさは、AI生成コンテンツ検出の複雑さに匹敵する可能性があることを示した。
関連論文リスト
- LLM Encoder vs. Decoder: Robust Detection of Chinese AI-Generated Text with LoRA [4.104443734934105]
我々は、エンコーダベースのトランスフォーマー(中国のBERTラージとRoBERTa-wwm-ext-large)、デコーダのみのLCM(アリババのQwen2.5-7B/Deep-R1-Distill-Qwen-7B)、およびFastTextベースラインを比較した。
実験により、エンコーダモデルはトレーニングデータをほとんど記憶しているが、分散シフト時に顕著な性能劣化を被っていることが明らかになった。
論文 参考訳(メタデータ) (2025-08-31T07:51:22Z) - PERTINENCE: Input-based Opportunistic Neural Network Dynamic Execution [0.0]
PERTINENCEは入力機能の複雑さを分析するために設計された新しいオンライン手法である。
与えられた入力を処理するために、トレーニング済みのセットから最も適切なモデルを動的に選択する。
最大36%の演算で、より良く、または同等の精度を達成する。
論文 参考訳(メタデータ) (2025-07-02T13:22:05Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [58.419940585826744]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。
属性(例えば、テキストの長さと書き込みスタイル)に基づいてデータをサブグループに分割し、FairOPTを実装して、各グループに対する決定しきい値の学習を行い、不一致を低減しました。
我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z) - Explainable AI for Comparative Analysis of Intrusion Detection Models [20.683181384051395]
本研究は,ネットワークトラフィックから侵入検出を行うために,各種機械学習モデルを二分分類および多クラス分類のタスクに解析する。
すべてのモデルをUNSW-NB15データセットで90%の精度でトレーニングしました。
また、Random Forestは正確さ、時間効率、堅牢性という点で最高のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2024-06-14T03:11:01Z) - Technical Report on the Pangram AI-Generated Text Classifier [0.14732811715354457]
トランスフォーマーをベースとしたニューラルネットワークであるPangram Textについて紹介する。
パングラムテキストは英語以外の話者に偏りがなく、訓練中に見つからないドメインやモデルに一般化されていることを示す。
論文 参考訳(メタデータ) (2024-02-21T17:13:41Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。