論文の概要: PerQ: Efficient Evaluation of Multilingual Text Personalization Quality
- arxiv url: http://arxiv.org/abs/2509.25903v1
- Date: Tue, 30 Sep 2025 07:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.470352
- Title: PerQ: Efficient Evaluation of Multilingual Text Personalization Quality
- Title(参考訳): PerQ:多言語テキストパーソナライズ品質の効率的な評価
- Authors: Dominik Macko, Andrew Pulver,
- Abstract要約: 個人化の品質など、テキストの特定の側面を評価するためのメトリクスは存在しないため、研究者はしばしばそのようなテキストをメタ評価するために、大きな言語モデルにのみ依存する。
本稿では、与えられたテキスト(言語モデルによって生成される)のパーソナライズ品質を評価するための計算効率の良い手法、PerQを紹介した。
- 参考スコア(独自算出の注目度): 3.0156689030741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since no metrics are available to evaluate specific aspects of a text, such as its personalization quality, the researchers often rely solely on large language models to meta-evaluate such texts. Due to internal biases of individual language models, it is recommended to use multiple of them for combined evaluation, which directly increases costs of such meta-evaluation. In this paper, a computationally efficient method for evaluation of personalization quality of a given text (generated by a language model) is introduced, called PerQ. A case study of comparison of generation capabilities of large and small language models shows the usability of the proposed metric in research, effectively reducing the waste of resources.
- Abstract(参考訳): 個人化の品質など、テキストの特定の側面を評価するためのメトリクスは存在しないため、研究者はしばしばそのようなテキストをメタ評価するために、大きな言語モデルにのみ依存する。
個々の言語モデルの内部バイアスのため、複数の言語を組み合わせて評価することで、このようなメタ評価のコストを直接的に増加させることが推奨されている。
本稿では、与えられたテキスト(言語モデルによって生成される)のパーソナライズ品質を評価するための計算効率の良い手法、PerQを紹介した。
大規模・小言語モデルの生成能力の比較を行ったケーススタディでは,提案手法の有効性を示し,資源の無駄を効果的に削減する。
関連論文リスト
- Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Automated Evaluation of Personalized Text Generation using Large
Language Models [38.2211640679274]
生成したテキストの3つの主要な意味的側面(パーソナライズ、品質、関連性)を抽出し、これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。
既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。
論文 参考訳(メタデータ) (2023-10-17T21:35:06Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - Language Model Evaluation in Open-ended Text Generation [0.76146285961466]
本研究では,機械生成テキストの品質,多様性,一貫性を評価するために提案されている評価指標について検討する。
そこで我々は,オープン・エンド・ジェネレーション・タスクにおいて,言語モデルを評価するための実用的なパイプラインを提案する。
論文 参考訳(メタデータ) (2021-08-08T06:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。