論文の概要: Interpretable Stylistic Variation in Human and LLM Writing Across Genres, Models, and Decoding Strategies
- arxiv url: http://arxiv.org/abs/2604.14111v1
- Date: Wed, 15 Apr 2026 17:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.658167
- Title: Interpretable Stylistic Variation in Human and LLM Writing Across Genres, Models, and Decoding Strategies
- Title(参考訳): 遺伝子・モデル・デコード戦略における人間とLLMの解釈可能な立体的変化
- Authors: Swati Rallapalli, Shannon Gallagher, Ronald Yurko, Tyler Brooks, Chuck Loughin, Michele Sezgin, Violet Turri,
- Abstract要約: 大規模言語モデル(LLM)は、高度に流動的で人間らしいテキストを生成することができる。
LLMは、多くのアプリケーションを可能にするだけでなく、大規模なスパム、フィッシング、学術的誤用といった懸念も引き起こす。
人文テキストと11 LLMの出力のスタイリスティックな変動を大規模に解析する。
- 参考スコア(独自算出の注目度): 0.34202935599316525
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are now capable of generating highly fluent, human-like text. They enable many applications, but also raise concerns such as large scale spam, phishing, or academic misuse. While much work has focused on detecting LLM-generated text, only limited work has gone into understanding the stylistic differences between human-written and machine-generated text. In this work, we perform a large scale analysis of stylistic variation across human-written text and outputs from 11 LLMs spanning 8 different genres and 4 decoding strategies using Douglas Biber's set of lexicogrammatical and functional features. Our findings reveal insights that can guide intentional LLM usage. First, key linguistic differentiators of LLM-generated text seem robust to generation conditions (e.g., prompt settings to nudge them to generate human-like text, or availability of human-written text to continue the style); second, genre exerts a stronger influence on stylistic features than the source itself; third, chat variants of the models generally appear to be clustered together in stylistic space, and finally, model has a larger effect on the style than decoding strategy, with some exceptions. These results highlight the relative importance of model and genre over prompting and decoding strategies in shaping the stylistic behavior of machine-generated text.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高度に流動的で人間らしいテキストを生成することができる。
それらは多くのアプリケーションを可能にするだけでなく、大規模なスパム、フィッシング、学術的誤用といった懸念も引き起こす。
LLM生成テキストの検出に多くの研究が注がれているが、人書きテキストと機械生成テキストの文体的差異を理解するのは限られた作業のみである。
本研究では,ダグラス・ビーバーの語彙的特徴と機能的特徴の集合を用いて,8つのジャンルにまたがる11のLLMと11のLLMの文体的変化の大規模解析を行う。
この結果から,LLMの意図的利用を導く知見が得られた。
第一に、LLM生成テキストの重要な言語的差別化要因は、生成条件に対して堅牢であるように見える(例えば、人間的なテキストを生成するための設定や、そのスタイルを継続するための人文テキストの可用性)。第二に、ジャンルは、ソース自身よりもスタイル的特徴に強い影響を与え、第三に、モデルのチャットの変種は概してスタイリスティックな空間でクラスタ化され、最後に、モデルがデコード戦略よりもスタイルにより大きな影響を持つ。
これらの結果は,機械生成テキストのスタイリスティックな振る舞いを形作る上で,プロンプトとデコード戦略よりも,モデルとジャンルの相対的な重要性を強調している。
関連論文リスト
- See the Text: From Tokenization to Visual Reading [63.10220471118435]
SeeTokはテキストを画像(ビジュアルテキスト)としてレンダリングし、事前訓練されたマルチモーダル計算を利用して解釈する。
3つの異なる言語タスクの中で、SeeeTokはサブワードトークンをマッチまたはオーバーし、トークンを4.43倍少なくし、FLOPを70.5%削減する。
SeeTokは、象徴的なトークン化から人間のような視覚的な読み方へとシフトし、より自然で認知的にインスパイアされた言語モデルへと一歩前進する。
論文 参考訳(メタデータ) (2025-10-21T17:34:48Z) - Linguistic and Embedding-Based Profiling of Texts generated by Humans and Large Language Models [0.2522193309965572]
人書きテキストや機械生成テキストを特徴付けるために,依存長や感情といった言語的特徴を計算した。
統計的分析により,人文テキストはより単純な構文構造とより多様な意味的内容を示す傾向があることが明らかとなった。
人文テキストと機械文テキストの両方がドメイン間のスタイリスティックな多様性を示しており、人文テキストは我々の特徴のより大きなバリエーションを示している。
論文 参考訳(メタデータ) (2025-07-18T02:46:55Z) - Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders [20.557610461777344]
Sparse Autoencoders (SAE) を用いてGemma-2-2b残ストリームから特徴を抽出する。
解釈可能な特徴と効率的な特徴の両方を識別し,その意味と妥当性を解析する。
提案手法は, さまざまなモデルからのテキストと人文コンテンツとの相違点について, 貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-03-05T15:33:52Z) - Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs [50.0874045899661]
本稿では,文字のテキストワークに現れる言語パターンと独特の思考パターンの両方を再現するモデルである characterBot を紹介する。
著名な中国の作家ル・ジュンをケーススタディとして、17冊のエッセイ集から派生した4つの訓練課題を提案する。
これには、外部の言語構造と知識を習得することに焦点を当てた事前訓練タスクと、3つの微調整タスクが含まれる。
言語的正確性と意見理解の3つのタスクにおいて、キャラクタボットを評価し、適応されたメトリクスのベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-02-18T16:11:54Z) - Human Variability vs. Machine Consistency: A Linguistic Analysis of Texts Generated by Humans and Large Language Models [0.0]
人文テキストと大言語モデル(LLM)で生成されたテキストとの有意な差異を同定する。
以上の結果から,人間は認知的要求の少ない文章を書けること,意味的内容の充実,感情的内容の充実などが示唆された。
論文 参考訳(メタデータ) (2024-12-04T04:38:35Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。