論文の概要: ExPerT: Effective and Explainable Evaluation of Personalized Long-Form Text Generation
- arxiv url: http://arxiv.org/abs/2501.14956v1
- Date: Fri, 24 Jan 2025 22:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:57.378646
- Title: ExPerT: Effective and Explainable Evaluation of Personalized Long-Form Text Generation
- Title(参考訳): ExPerT:パーソナライズされた長文生成の有効かつ説明可能な評価
- Authors: Alireza Salemi, Julian Killingback, Hamed Zamani,
- Abstract要約: ExPerTは、パーソナライズされたテキスト生成のための説明可能な参照ベースの評価フレームワークである。
実験の結果, ExPerTは人間の判断に合わせた相対的な7.2%の改善を達成できた。
人間の評価者は、ExPerTの説明を5つ中4.7に評価し、評価決定をより解釈可能なものにする効果を強調した。
- 参考スコア(独自算出の注目度): 19.333896936153618
- License:
- Abstract: Evaluating personalized text generated by large language models (LLMs) is challenging, as only the LLM user, i.e., prompt author, can reliably assess the output, but re-engaging the same individuals across studies is infeasible. This paper addresses the challenge of evaluating personalized text generation by introducing ExPerT, an explainable reference-based evaluation framework. ExPerT leverages an LLM to extract atomic aspects and their evidence from the generated and reference texts, match the aspects, and evaluate their alignment based on content and writing style -- two key attributes in personalized text generation. Additionally, ExPerT generates detailed, fine-grained explanations for every step of the evaluation process, enhancing transparency and interpretability. Our experiments demonstrate that ExPerT achieves a 7.2% relative improvement in alignment with human judgments compared to the state-of-the-art text generation evaluation methods. Furthermore, human evaluators rated the usability of ExPerT's explanations at 4.7 out of 5, highlighting its effectiveness in making evaluation decisions more interpretable.
- Abstract(参考訳): 大規模言語モデル(LLM)によって生成されたパーソナライズされたテキストを評価することは、LLMユーザ、すなわちプロンプト作者のみが確実に出力を評価することができるため、困難である。
本稿では、説明可能な参照ベース評価フレームワークであるExPerTを導入することで、パーソナライズされたテキスト生成を評価するという課題に対処する。
ExPerTはLLMを利用して、生成されたテキストと参照テキストから原子的側面とそれらの証拠を抽出し、アスペクトにマッチし、コンテンツと書き込みスタイルに基づいてそれらのアライメントを評価する -- パーソナライズされたテキスト生成における2つの重要な属性である。
さらに、ExPerTは評価プロセスのすべてのステップについて詳細できめ細かな説明を生成し、透明性と解釈可能性を高める。
実験の結果, ExPerT は現状のテキスト生成評価法と比較して, 人間の判断に適合する相対的改善が 7.2% であることがわかった。
さらに、人間の評価者は、ExPerTの説明を5つ中4.7つと評価し、評価決定をより解釈可能なものにする効果を強調した。
関連論文リスト
- Beyond Turing Test: Can GPT-4 Sway Experts' Decisions? [14.964922012236498]
本稿では,生成したテキストが読者の判断にどう影響するかを,アマチュアと専門家の両方に焦点をあてる。
以上の結果から,GPT-4はアマチュアとプロの双方の意思決定に影響を及ぼす説得的分析を生ずる可能性が示唆された。
その結果、観客反応による実世界評価と、生成モデルによく用いられる現在の多次元評価器との間に高い相関関係が示された。
論文 参考訳(メタデータ) (2024-09-25T07:55:36Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - X-Eval: Generalizable Multi-aspect Text Evaluation via Augmented Instruction Tuning with Auxiliary Evaluation Aspects [32.50977115108103]
X-Evalは、エンドユーザーがカスタマイズした視覚的側面と見えない側面の両方でテキストを評価するための2段階のインストラクションチューニングフレームワークである。
X-Evalは2つの学習段階から構成されており、モデルの性能を向上させるバニラ命令チューニング段階と、微粒化評価面間の接続を利用してテキスト品質を評価する拡張命令チューニング段階である。
論文 参考訳(メタデータ) (2023-11-15T09:01:55Z) - Automated Evaluation of Personalized Text Generation using Large
Language Models [38.2211640679274]
生成したテキストの3つの主要な意味的側面(パーソナライズ、品質、関連性)を抽出し、これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。
既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。
論文 参考訳(メタデータ) (2023-10-17T21:35:06Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。