論文の概要: Evaluating Style-Personalized Text Generation: Challenges and Directions
- arxiv url: http://arxiv.org/abs/2508.06374v2
- Date: Tue, 14 Oct 2025 18:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.821249
- Title: Evaluating Style-Personalized Text Generation: Challenges and Directions
- Title(参考訳): スタイルパーソナライズされたテキスト生成の評価 : 課題と方向性
- Authors: Anubhav Jangra, Bahareh Sarrafzadeh, Silviu Cucerzan, Adrian de Wynter, Sujay Kumar Jauhar,
- Abstract要約: スタイルのパーソナライゼーションは、すべてのユーザに対して非常に具体的であり、実用的コンテキストに強く依存する。
BLEU, 埋め込み, LLMs-as-judgesなど, この分野で最も一般的な測定値の有効性について検討した。
多様な評価指標のアンサンブルを用いることで、単一評価手法よりも一貫して優れているという強い証拠が得られます。
- 参考スコア(独自算出の注目度): 13.84471733325089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the surge of large language models (LLMs) and their ability to produce customized output, style-personalized text generation--"write like me"--has become a rapidly growing area of interest. However, style personalization is highly specific, relative to every user, and depends strongly on the pragmatic context, which makes it uniquely challenging. Although prior research has introduced benchmarks and metrics for this area, they tend to be non-standardized and have known limitations (e.g., poor correlation with human subjects). LLMs have been found to not capture author-specific style well, it follows that the metrics themselves must be scrutinized carefully. In this work we critically examine the effectiveness of the most common metrics used in the field, such as BLEU, embeddings, and LLMs-as-judges. We evaluate these metrics using our proposed style discrimination benchmark, which spans eight diverse writing tasks across three evaluation settings: domain discrimination, authorship attribution, and LLM-generated personalized vs non-personalized discrimination. We find strong evidence that employing ensembles of diverse evaluation metrics consistently outperforms single-evaluator methods, and conclude by providing guidance on how to reliably assess style-personalized text generation.
- Abstract(参考訳): 大規模言語モデル(LLM)の急増と、カスタマイズされた出力を生成する能力により、"私のように書き込む"スタイルパーソナライズされたテキスト生成は、急速に関心が高まりつつある。
しかし、スタイルのパーソナライゼーションは、すべてのユーザに対して非常に具体的であり、実用的コンテキストに強く依存する。
これまでの研究では、この領域のベンチマークやメトリクスが紹介されていたが、標準化されておらず、既知の制限がある傾向がある(例えば、人間の被験者との相関が低い)。
LLMは著者固有のスタイルをうまく捉えていないことが分かっており、メトリクス自体を慎重に精査する必要がある。
本研究では, BLEU, 埋め込み, LLMs-as-judgesなど, この分野で最も一般的なメトリクスの有効性を批判的に検証する。
提案手法は,ドメイン識別,著者帰属,LLM生成によるパーソナライズド・パーソナライズド・パーソナライズド・パーソナライゼーションと非パーソナライズド・パーソナライズド・パーソナライズド・差別の3つの評価設定にまたがる8つの多様な記述タスクにまたがる。
多様な評価指標のアンサンブルを用いることで、一括評価手法よりも常に優れているという強い証拠が得られ、スタイルパーソナライズされたテキスト生成を確実に評価する方法に関するガイダンスを提供することで、結論が導かれる。
関連論文リスト
- Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles [32.121191446326876]
さまざまなモデルやタスクにまたがって、低いか高いパフォーマンスを連続的に引き起こす異なる書き込みスタイルを特定します。
我々の研究は、既存のベンチマークを拡大するためのスケーラブルなアプローチを提供し、LLM性能の測定に提供される評価の外部的妥当性を改善します。
論文 参考訳(メタデータ) (2025-07-29T18:59:09Z) - Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。
局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。
最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T16:39:41Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework [0.1979158763744267]
オープンエンドテキスト生成は自然言語処理において顕著な課題となっている。
これらのモデルの品質と 採用した復号化戦略を評価することは 依然として困難です
本稿では,デコード手法の相対的および絶対的ランク付けのための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T11:32:01Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T18:23:39Z) - Automated Evaluation of Personalized Text Generation using Large
Language Models [38.2211640679274]
生成したテキストの3つの主要な意味的側面(パーソナライズ、品質、関連性)を抽出し、これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。
既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。
論文 参考訳(メタデータ) (2023-10-17T21:35:06Z) - PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。
以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。
セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。