論文の概要: Catch Me If You Can? Not Yet: LLMs Still Struggle to Imitate the Implicit Writing Styles of Everyday Authors
- arxiv url: http://arxiv.org/abs/2509.14543v1
- Date: Thu, 18 Sep 2025 02:18:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.024423
- Title: Catch Me If You Can? Not Yet: LLMs Still Struggle to Imitate the Implicit Writing Styles of Everyday Authors
- Title(参考訳): LLMは、毎日の作家の書き方を変えるのに苦労している
- Authors: Zhengxiang Wang, Nafis Irtiza Tripto, Solha Park, Zhenzhen Li, Jiawei Zhou,
- Abstract要約: 本研究は,大規模言語モデルの個人記述スタイルを模倣する能力を包括的に評価する。
著者の帰属、著者の検証、スタイルマッチング、AI検出など、補完的な指標の集合体を導入し、スタイルの模倣を頑健に評価する。
結果は、LLMがニュースやメールなどの構造化フォーマットでユーザスタイルを近似できる一方で、ブログやフォーラムでの曖昧で非公式な書き込みに苦労していることを示している。
- 参考スコア(独自算出の注目度): 9.921537507947473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) become increasingly integrated into personal writing tools, a critical question arises: can LLMs faithfully imitate an individual's writing style from just a few examples? Personal style is often subtle and implicit, making it difficult to specify through prompts yet essential for user-aligned generation. This work presents a comprehensive evaluation of state-of-the-art LLMs' ability to mimic personal writing styles via in-context learning from a small number of user-authored samples. We introduce an ensemble of complementary metrics-including authorship attribution, authorship verification, style matching, and AI detection-to robustly assess style imitation. Our evaluation spans over 40000 generations per model across domains such as news, email, forums, and blogs, covering writing samples from more than 400 real-world authors. Results show that while LLMs can approximate user styles in structured formats like news and email, they struggle with nuanced, informal writing in blogs and forums. Further analysis on various prompting strategies such as number of demonstrations reveal key limitations in effective personalization. Our findings highlight a fundamental gap in personalized LLM adaptation and the need for improved techniques to support implicit, style-consistent generation. To aid future research and for reproducibility, we open-source our data and code.
- Abstract(参考訳): 大規模言語モデル(LLM)がますます個人的な記述ツールに統合されるにつれて、重大な問題が発生する。
パーソナライズなスタイルは微妙で暗黙的であり、プロンプトを通じて特定することは難しいが、ユーザアラインな生成には不可欠である。
本研究は、少数のユーザによるサンプルからテキスト内学習を通じて、個人記述スタイルを模倣する、最先端のLCMの能力を包括的に評価する。
著者の帰属、著者の検証、スタイルマッチング、AI検出など、補完的な指標の集合体を導入し、スタイルの模倣を頑健に評価する。
私たちの評価は、ニュース、メール、フォーラム、ブログなどのドメインで1モデルあたり40万世代以上にわたって行われ、400以上の現実世界の著者のサンプルをカバーしています。
結果は、LLMがニュースやメールなどの構造化フォーマットでユーザスタイルを近似できる一方で、ブログやフォーラムでの曖昧で非公式な書き込みに苦労していることを示している。
デモの数などの様々なプロンプト戦略のさらなる分析は、効果的なパーソナライゼーションにおける重要な制限を明らかにしている。
本研究は、パーソナライズされたLCM適応の基本的なギャップと、暗黙的、スタイル一貫性のある生成をサポートする技術の改善の必要性を明らかにする。
今後の研究と再現性を支援するため、私たちはデータとコードをオープンソース化します。
関連論文リスト
- Help Me Write a Story: Evaluating LLMs' Ability to Generate Writing Feedback [57.200668979963694]
我々は1,300のストーリーからなる新しいテストセットを提示し、故意に執筆問題を紹介した。
本研究では,この作業においてよく用いられるLCMの性能を,自動評価と人的評価の両方を用いて検討する。
論文 参考訳(メタデータ) (2025-07-21T18:56:50Z) - Looking for the Inner Music: Probing LLMs' Understanding of Literary Style [3.5757761767474876]
作者のスタイルはジャンルのスタイルよりも定義しやすい。
代名詞の用法と語順は、両方の文学的スタイルを定義する上で重要である。
論文 参考訳(メタデータ) (2025-02-05T22:20:17Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Customizing Large Language Model Generation Style using Parameter-Efficient Finetuning [24.263699489328427]
ワンサイズフィットのすべての大規模言語モデル(LLM)は、人々が書くのを助けるためにますます使われています。
本稿では,Low-Rank Adaptationを用いたパラメータ効率ファインタニング(PEFT)がLLM世代を効果的に導くことができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-09-06T19:25:18Z) - Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。
本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2024-07-18T10:01:09Z) - Panza: Design and Analysis of a Fully-Local Personalized Text Writing Assistant [28.752596543740225]
そこで我々は,Panzaと呼ばれる自動アシスタントの設計と評価を行う。
Panzaのパーソナライズ機能は、Retrieval-Augmented GenerationとともにReverse Instructionsテクニックの変種を使用した微調整の組み合わせに基づいている。
この組み合わせにより、非常に限られたリソース上で実行しながら、LLMを微調整して、限られたデータを使ってユーザの書き込みスタイルを反映できることを示す。
論文 参考訳(メタデータ) (2024-06-24T12:09:34Z) - Step-Back Profiling: Distilling User History for Personalized Scientific Writing [50.481041470669766]
大きな言語モデル(LLM)は、さまざまな自然言語処理タスクに優れていますが、個人向けにパーソナライズされたコンテンツを生成するのに苦労しています。
ユーザ履歴を簡潔なプロファイルに抽出することで,LSMをパーソナライズするためのSTEP-BACK ProFIlingを導入する。
本手法は,一般パーソナライゼーションベンチマークにおいて,ベースラインを最大3.6ポイント向上させる。
論文 参考訳(メタデータ) (2024-06-20T12:58:26Z) - Learning Interpretable Style Embeddings via Prompting LLMs [46.74488355350601]
スタイル表現学習はテキストで著者スタイルのコンテンツに依存しない表現を構築する。
現在のスタイル表現学習では、ニューラルネットワークを使ってスタイルをコンテンツから切り離し、スタイルベクトルを作成する。
我々は、多くのテキストでスタイメトリーを実行し、合成データセットを作成し、人間の解釈可能なスタイル表現を訓練するために、プロンプトを使用する。
論文 参考訳(メタデータ) (2023-05-22T04:07:54Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。