論文の概要: Interpretable Text Classification Applied to the Detection of LLM-generated Creative Writing
- arxiv url: http://arxiv.org/abs/2601.07368v1
- Date: Mon, 12 Jan 2026 09:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.323268
- Title: Interpretable Text Classification Applied to the Detection of LLM-generated Creative Writing
- Title(参考訳): LLM生成クリエーティブ・ライティングの検出に応用した解釈可能なテキスト分類
- Authors: Minerva Suvanto, Andrea McGlinchey, Mattias Wahde, Peter J Barclay,
- Abstract要約: 我々は、人間による創作小説(小説の抜粋)とLLMが生み出す類似のテキストとを区別する問題を考察する。
以上の結果から, 人間の観察者は, この二項分類作業において, 精度が0.93~0.98の範囲で低い(確率レベルに近い)にもかかわらず, 様々な機械学習モデルで精度が向上することが示唆された。
- 参考スコア(独自算出の注目度): 0.20999222360659608
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We consider the problem of distinguishing human-written creative fiction (excerpts from novels) from similar text generated by an LLM. Our results show that, while human observers perform poorly (near chance levels) on this binary classification task, a variety of machine-learning models achieve accuracy in the range 0.93 - 0.98 over a previously unseen test set, even using only short samples and single-token (unigram) features. We therefore employ an inherently interpretable (linear) classifier (with a test accuracy of 0.98), in order to elucidate the underlying reasons for this high accuracy. In our analysis, we identify specific unigram features indicative of LLM-generated text, one of the most important being that the LLM tends to use a larger variety of synonyms, thereby skewing the probability distributions in a manner that is easy to detect for a machine learning classifier, yet very difficult for a human observer. Four additional explanation categories were also identified, namely, temporal drift, Americanisms, foreign language usage, and colloquialisms. As identification of the AI-generated text depends on a constellation of such features, the classification appears robust, and therefore not easy to circumvent by malicious actors intent on misrepresenting AI-generated text as human work.
- Abstract(参考訳): 我々は、人間による創作小説(小説の抜粋)とLLMが生み出す類似のテキストとを区別する問題を考察する。
この2値分類タスクでは、人間の観察者が低い(確率レベルに近づいた)が、様々な機械学習モデルは、短いサンプルとシングルトケン(ユニグラム)機能を使用しても、これまで見られなかったテストセットよりも精度が0.93~0.98の範囲で達成されている。
したがって、この高い精度の根本原因を明らかにするために、本質的に解釈可能な(線形な)分類器(検定精度0.98)を用いる。
分析では,LLM生成テキストの特定のユニグラムの特徴を同定し,LLMはより多種多様な同義語を使用する傾向にあり,機械学習分類器で容易に検出できるが,人間の観察者にとって非常に困難であることを示す。
さらに4つの説明カテゴリー、すなわち時間的ドリフト、アメリカ主義、外国語の使用、口語主義が同定された。
AI生成テキストの識別は、このような特徴の星座に依存するため、分類は堅牢に見え、AI生成テキストを人間の仕事と誤表現しようとする悪意のあるアクターによって避けられそうにない。
関連論文リスト
- Computational Turing Test Reveals Systematic Differences Between Human and AI Language [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするために社会科学でますます使われている。
既存の検証努力は人的判断に基づく評価に大きく依存している。
本稿では,LLMが人間の言語にどの程度近いかを評価するために,計算チューリングテストを提案する。
論文 参考訳(メタデータ) (2025-11-06T08:56:37Z) - Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - Diversity Boosts AI-Generated Text Detection [51.56484100374058]
DivEyeは、予備的な機能を使って、予測不可能がテキスト間でどのように変動するかをキャプチャする、新しいフレームワークである。
提案手法は、既存のゼロショット検出器を最大33.2%向上させ、微調整ベースラインとの競合性能を達成する。
論文 参考訳(メタデータ) (2025-09-23T10:21:22Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - mdok of KInIT: Robustly Fine-tuned LLM for Binary and Multiclass AI-Generated Text Detection [3.562613318511706]
自動検出は、人間が機械生成したテキストを表示するのを助けることができる。
このノートは、テキスト分類のための微調整された小さなLLMに基づいて、ロバスト検出における我々のmdokアプローチを記述している。
これは、Voight-Kampff Generative AI Detection 2025のサブタスクの両方に適用され、どちらも優れたパフォーマンス(1位)を提供する。
論文 参考訳(メタデータ) (2025-06-02T14:07:32Z) - ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。
本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。
以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T01:15:07Z) - Leveraging Explainable AI for LLM Text Attribution: Differentiating Human-Written and Multiple LLMs-Generated Text [1.1137087573421256]
本研究では,生成型AI大言語モデルを用いて生成されたテキストコンテンツの検出と識別を支援することを目的とする。
我々はランダムフォレスト(RF)やリカレントニューラルネットワーク(RNN)などの機械学習アルゴリズムを利用して、属性の重要な特徴を理解する。
本手法は,1) 人文とAIテキストを区別するバイナリ分類と,2) 人文と5種類のLDMツールで生成するテキストを区別するマルチ分類に分けられる。
論文 参考訳(メタデータ) (2025-01-06T18:46:53Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。