論文の概要: Stylometry recognizes human and LLM-generated texts in short samples
- arxiv url: http://arxiv.org/abs/2507.00838v1
- Date: Tue, 01 Jul 2025 15:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.685109
- Title: Stylometry recognizes human and LLM-generated texts in short samples
- Title(参考訳): ストイロメトリーはヒトおよびLDM生成テキストを短いサンプルで認識する
- Authors: Karol Przystalski, Jan K. Argasiński, Iwona Grabska-Gradzińska, Jeremi K. Ochab,
- Abstract要約: 本稿では,Large Language Models (LLM) と人間によるテキストを区別する手法として,スタイメトリーについて検討する。
モデル属性、知的財産権、倫理的AI利用の問題に対処する。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The paper explores stylometry as a method to distinguish between texts created by Large Language Models (LLMs) and humans, addressing issues of model attribution, intellectual property, and ethical AI use. Stylometry has been used extensively to characterise the style and attribute authorship of texts. By applying it to LLM-generated texts, we identify their emergent writing patterns. The paper involves creating a benchmark dataset based on Wikipedia, with (a) human-written term summaries, (b) texts generated purely by LLMs (GPT-3.5/4, LLaMa 2/3, Orca, and Falcon), (c) processed through multiple text summarisation methods (T5, BART, Gensim, and Sumy), and (d) rephrasing methods (Dipper, T5). The 10-sentence long texts were classified by tree-based models (decision trees and LightGBM) using human-designed (StyloMetrix) and n-gram-based (our own pipeline) stylometric features that encode lexical, grammatical, syntactic, and punctuation patterns. The cross-validated results reached a performance of up to .87 Matthews correlation coefficient in the multiclass scenario with 7 classes, and accuracy between .79 and 1. in binary classification, with the particular example of Wikipedia and GPT-4 reaching up to .98 accuracy on a balanced dataset. Shapley Additive Explanations pinpointed features characteristic of the encyclopaedic text type, individual overused words, as well as a greater grammatical standardisation of LLMs with respect to human-written texts. These results show -- crucially, in the context of the increasingly sophisticated LLMs -- that it is possible to distinguish machine- from human-generated texts at least for a well-defined text type.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) と人間によるテキストの区別方法としてスタイメトグラフィーについて検討し,モデル帰属,知的財産権,倫理的AI利用の問題に対処する。
スティロメトリは、テキストのスタイルと属性のオーサリングを特徴付けるために広く使われている。
LLM生成したテキストに適用することにより、創発的な書き込みパターンを識別する。
論文にはWikipediaに基づくベンチマークデータセットの作成が含まれている。
(a)人書きの要約
(b)LLM(GPT-3.5/4、LLaMa2/3、Orca、Falcon)で純粋に生成されたテキスト
(c)複数のテキスト要約方法(T5、BART、Gensim、Sumy)および処理
(d) 言い換え法(Dipper, T5)。
10文の長文は, 語彙, 文法, 構文, 句読点パターンをエンコードする, 人間の設計した(StyloMetrix) と n-gramベースの(我々のパイプライン) テクスチャ的特徴を用いて, 木系モデル (決定木とLightGBM) で分類した。
クロスバリデーションの結果は7つのクラスを持つマルチクラスシナリオで最大.87マシューズ相関係数に達し、精度は.79から1。
バイナリ分類では、ウィキペディアとGPT-4の特定の例で、バランスの取れたデータセットで最大98の精度に達する。
Shapley Additive Explanationsは、百科事典のテキストタイプ、個々の過剰使用語の特徴と、人文テキストに対するLLMの文法的標準化を特徴付けている。
これらの結果は、少なくとも明確に定義されたテキストタイプに対して、機械と人間の生成したテキストを区別することが可能であることを示す。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Human Variability vs. Machine Consistency: A Linguistic Analysis of Texts Generated by Humans and Large Language Models [0.0]
人文テキストと大言語モデル(LLM)で生成されたテキストとの有意な差異を同定する。
以上の結果から,人間は認知的要求の少ない文章を書けること,意味的内容の充実,感情的内容の充実などが示唆された。
論文 参考訳(メタデータ) (2024-12-04T04:38:35Z) - LLM-based feature generation from text for interpretable machine learning [0.0]
埋め込みやback-of-wordsのような既存のテキスト表現は、その高次元性や欠落、あるいは疑わしい特徴レベルの解釈性のため、ルール学習には適さない。
本稿では,テキストから少数の解釈可能な特徴を抽出することにより,大規模言語モデル(LLM)がこの問題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-09-11T09:29:28Z) - Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse Motifs [19.073560504913356]
人造テキストと機械生成テキストの境界線は、ますますぼやけつつある。
本稿は,人間によって書かれたテキストにおいて,識別可能な言語的特徴と独特な言語的特性を識別する調査について述べる。
論文 参考訳(メタデータ) (2024-02-16T11:20:30Z) - TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles [14.205559299967423]
近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。
悪意のある意図を持つユーザは、これらのオープンソース LLM を使用して、有害なテキストや、大規模な偽情報を生成することができる。
この問題を軽減するために、与えられたテキストがディープフェイクテキストであるか否かを判定する計算方法を提案する。
そこで我々はTopFormerを提案し、より言語的なパターンをディープフェイクテキストに取り込み、既存のAAソリューションを改善する。
論文 参考訳(メタデータ) (2023-09-22T15:32:49Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。