論文の概要: How Well Do LLMs Imitate Human Writing Style?
- arxiv url: http://arxiv.org/abs/2509.24930v1
- Date: Mon, 29 Sep 2025 15:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.093744
- Title: How Well Do LLMs Imitate Human Writing Style?
- Title(参考訳): LLMはいかに人間の筆記スタイルを省略するか?
- Authors: Rebira Jemama, Rajesh Kumar,
- Abstract要約: 大規模言語モデル(LLM)は、流動的なテキストを生成することができるが、特定の人間の作者の独特のスタイルを再現する能力は、まだ不明である。
著者の検証とスタイルの模倣分析のための,高速かつトレーニング不要なフレームワークを提案する。
学術エッセイでは97.5%、クロスドメイン評価では94.5%の精度を達成している。
- 参考スコア(独自算出の注目度): 2.3754840025365183
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) can generate fluent text, but their ability to replicate the distinctive style of a specific human author remains unclear. We present a fast, training-free framework for authorship verification and style imitation analysis. The method integrates TF-IDF character n-grams with transformer embeddings and classifies text pairs through empirical distance distributions, eliminating the need for supervised training or threshold tuning. It achieves 97.5\% accuracy on academic essays and 94.5\% in cross-domain evaluation, while reducing training time by 91.8\% and memory usage by 59\% relative to parameter-based baselines. Using this framework, we evaluate five LLMs from three separate families (Llama, Qwen, Mixtral) across four prompting strategies - zero-shot, one-shot, few-shot, and text completion. Results show that the prompting strategy has a more substantial influence on style fidelity than model size: few-shot prompting yields up to 23.5x higher style-matching accuracy than zero-shot, and completion prompting reaches 99.9\% agreement with the original author's style. Crucially, high-fidelity imitation does not imply human-like unpredictability - human essays average a perplexity of 29.5, whereas matched LLM outputs average only 15.2. These findings demonstrate that stylistic fidelity and statistical detectability are separable, establishing a reproducible basis for future work in authorship modeling, detection, and identity-conditioned generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、流動的なテキストを生成することができるが、特定の人間の作者の独特のスタイルを再現する能力は、まだ不明である。
著者の検証とスタイルの模倣分析のための,高速かつトレーニング不要なフレームワークを提案する。
TF-IDF文字n-gramをトランスフォーマー埋め込みと統合し、実験的な距離分布を通してテキストペアを分類し、教師付きトレーニングやしきい値調整を不要とする。
学術エッセイでは97.5\%の精度、クロスドメイン評価では94.5\%、トレーニング時間では91.8\%、メモリ使用率ではパラメータベースのベースラインに対して59\%の精度を実現している。
このフレームワークを用いて,ゼロショット,ワンショット,少数ショット,テキスト補完という,3つの異なるファミリー(Llama,Qwen,Mixtral)から5つのLSMを評価する。
その結果, プロセッシング戦略は, モデルサイズよりもスタイル忠実度に大きく影響していることが明らかとなった。少数ショットプロセッシングはゼロショットよりも最大23.5倍高いスタイルマッチング精度を示し, 完了プロセッシングはオリジナル作者のスタイルと99.9\%の一致を示した。
人間のエッセイの平均パープレキシティは29.5であり、マッチングされたLLMの出力は15.2である。
これらの結果から,形式的忠実度と統計的検出性は分離可能であることが示され,著者モデリング,検出,アイデンティティ条件付き生成における今後の研究の再現可能な基盤が確立された。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。
以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。
セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - MOCHA: A Dataset for Training and Evaluating Generative Reading
Comprehension Metrics [55.85042753772513]
そこで本研究では,生成的読解の指標であるModeling Correctness with Humanをトレーニングし,評価するためのベンチマークを提案する。
S
我々は,MOCHAを用いて,人間の判断スコアを模倣する学習評価尺度LERCを訓練する。
最小のペアで評価すると、LERCは80%の精度でベースラインを14から26の絶対パーセンテージポイントで上回り、改善の余地は大きい。
論文 参考訳(メタデータ) (2020-10-07T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。