論文の概要: Evaluating Style-Personalized Text Generation: Challenges and Directions
- arxiv url: http://arxiv.org/abs/2508.06374v1
- Date: Fri, 08 Aug 2025 15:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.27562
- Title: Evaluating Style-Personalized Text Generation: Challenges and Directions
- Title(参考訳): スタイルパーソナライズされたテキスト生成の評価 : 課題と方向性
- Authors: Anubhav Jangra, Bahareh Sarrafzadeh, Adrian de Wynter, Silviu Cucerzan, Sujay Kumar Jauhar,
- Abstract要約: BLEUやROUGEのような広く採用されている評価指標の有効性を疑問視する。
我々は、スタイルの埋め込みやLCM-as-judgeといった他の評価パラダイムを探索し、スタイルのパーソナライズされたテキスト生成タスクを全体的評価する。
我々は,多様な評価指標のアンサンブルを取り入れ,個人化されたテキスト生成を効果的に評価する決定的な証拠を提供する。
- 参考スコア(独自算出の注目度): 6.591202819926121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While prior research has built tools and benchmarks towards style personalized text generation, there has been limited exploration of evaluation in low-resource author style personalized text generation space. Through this work, we question the effectiveness of the widely adopted evaluation metrics like BLEU and ROUGE, and explore other evaluation paradigms such as style embeddings and LLM-as-judge to holistically evaluate the style personalized text generation task. We evaluate these metrics and their ensembles using our style discrimination benchmark, that spans eight writing tasks, and evaluates across three settings, domain discrimination, authorship attribution, and LLM personalized vs non-personalized discrimination. We provide conclusive evidence to adopt ensemble of diverse evaluation metrics to effectively evaluate style personalized text generation.
- Abstract(参考訳): 従来の研究は、スタイルのパーソナライズされたテキスト生成のためのツールやベンチマークを構築してきたが、低リソースの著者スタイルのパーソナライズされたテキスト生成空間では、評価が限られていた。
本研究では,BLEU や ROUGE などの広く採用されている評価指標の有効性を問うとともに,スタイル埋め込みや LLM-as-judge などの評価パラダイムを探索して,スタイル個別化テキスト生成タスクの全体的評価を行う。
我々は,これらの指標とそのアンサンブルを,8つのタスクにまたがるスタイル判別ベンチマークを用いて評価し,ドメイン識別,著者帰属,LLMパーソナライズされた個人識別と非個人識別の3つの設定にまたがる評価を行った。
我々は,多様な評価指標のアンサンブルを取り入れ,個人化されたテキスト生成を効果的に評価する決定的な証拠を提供する。
関連論文リスト
- Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles [32.121191446326876]
さまざまなモデルやタスクにまたがって、低いか高いパフォーマンスを連続的に引き起こす異なる書き込みスタイルを特定します。
我々の研究は、既存のベンチマークを拡大するためのスケーラブルなアプローチを提供し、LLM性能の測定に提供される評価の外部的妥当性を改善します。
論文 参考訳(メタデータ) (2025-07-29T18:59:09Z) - Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。
局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。
最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T16:39:41Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework [0.1979158763744267]
オープンエンドテキスト生成は自然言語処理において顕著な課題となっている。
これらのモデルの品質と 採用した復号化戦略を評価することは 依然として困難です
本稿では,デコード手法の相対的および絶対的ランク付けのための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T11:32:01Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T18:23:39Z) - Automated Evaluation of Personalized Text Generation using Large
Language Models [38.2211640679274]
生成したテキストの3つの主要な意味的側面(パーソナライズ、品質、関連性)を抽出し、これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。
既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。
論文 参考訳(メタデータ) (2023-10-17T21:35:06Z) - PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。
以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。
セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。