論文の概要: Learning Personalized Story Evaluation
- arxiv url: http://arxiv.org/abs/2310.03304v3
- Date: Tue, 10 Oct 2023 15:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 19:32:07.780860
- Title: Learning Personalized Story Evaluation
- Title(参考訳): パーソナライズドストーリー評価の学習
- Authors: Danqing Wang, Kevin Yang, Hanlin Zhu, Xiaomeng Yang, Andrew Cohen, Lei
Li, Yuandong Tian
- Abstract要約: 未汚染のオープンエンド世代アセスメントにおけるパーソナライズをモデル化することを提案する。
我々は、適切な匿名化と新しいパーソナライズされたラベルで既存のデータセットを再購入することで、パーソナライズされたストーリー評価のための2つの新しいデータセットを作成する。
さらに,パーソナライズされたストーリー評価モデル PERSE を開発し,レビュアーの好みを推測し,パーソナライズされた評価を提供する。
- 参考スコア(独自算出の注目度): 46.48514028391478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have shown impressive results for more
objective tasks such as QA and retrieval, it remains nontrivial to evaluate
their performance on open-ended text generation for reasons including (1) data
contamination; (2) multi-dimensional evaluation criteria; and (3)
subjectiveness stemming from reviewers' personal preferences. To address such
issues, we propose to model personalization in an uncontaminated open-ended
generation assessment. We create two new datasets Per-MPST and Per-DOC for
personalized story evaluation, by re-purposing existing datasets with proper
anonymization and new personalized labels. We further develop a personalized
story evaluation model PERSE to infer reviewer preferences and provide a
personalized evaluation. Specifically, given a few exemplary reviews from a
particular reviewer, PERSE predicts either a detailed review or fine-grained
comparison in several aspects (such as interestingness and surprise) for that
reviewer on a new text input. Experimental results show that PERSE outperforms
GPT-4 by 15.8% on Kendall correlation of story ratings, and by 13.7% on
pairwise preference prediction accuracy. Both datasets and code will be
released.
- Abstract(参考訳): 大規模言語モデル(LLM)は,(1)データ汚染,(2)多次元評価基準,(3)レビュアーの個人的嗜好から生じる主観性などの理由から,オープンエンドテキスト生成の性能を評価することは容易ではない。
このような問題に対処するため,我々は汚染のないオープンエンド世代アセスメントにおいてパーソナライズをモデル化することを提案する。
既存のデータセットを適切な匿名化と新しいパーソナライズラベルで再提案することにより,mpst と per-doc の2つの新しいデータセットをパーソナライズストーリー評価用に作成する。
さらに,レビュー者の好みを推測するパーソナライズドストーリー評価モデルを開発し,パーソナライズドストーリー評価を提供する。
特に、あるレビュアーの模範的なレビューがいくつかあることを踏まえると、PERSEは、新しいテキスト入力に対するレビュアーの詳細なレビューまたはいくつかの側面(興味や驚きなど)の詳細な比較を予測している。
実験結果から, PERSEはGPT-4よりも15.8%, ストーリーレーティングのKendall相関は13.7%, ペア選択予測精度は13.7%向上した。
データセットとコードの両方がリリースされる。
関連論文リスト
- Team-related Features in Code Review Prediction Models [10.576931077314887]
コードオーナシップ、ワークロード、チーム関係に関連する機能の予測能力を評価します。
結果から,コードオーナシップに関連する機能が最も優れた予測能力を持つことが示唆された。
提案されたすべての機能とコード行を合わせることで、レビュアーの参加とフィードバックの量の両方に最適な予測ができると結論付けます。
論文 参考訳(メタデータ) (2023-12-11T09:30:09Z) - Automated Evaluation of Personalized Text Generation using Large
Language Models [38.2211640679274]
生成したテキストの3つの主要な意味的側面(パーソナライズ、品質、関連性)を抽出し、これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。
既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。
論文 参考訳(メタデータ) (2023-10-17T21:35:06Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [72.54255857335549]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Towards Personalized Review Summarization by Modeling Historical Reviews
from Customer and Product Separately [59.61932899841944]
レビュー要約(review summarization)は、Eコマースのウェブサイトで製品レビューのメインの考え方を要約することを目的とした、簡単ではないタスクである。
Heterogeneous Historical Review aware Review Summarization Model (HHRRS)を提案する。
我々は、レビュー感情分類と要約を共同で行うマルチタスクフレームワークを採用している。
論文 参考訳(メタデータ) (2023-01-27T12:32:55Z) - SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item
Recommendation [48.1799451277808]
本稿では、レビューに基づく項目推薦のための感性認識型インタラクティブフュージョンネットワーク(SIFN)を提案する。
まず、BERTを介してユーザ/イテムレビューをエンコードし、各レビューのセマンティックな特徴を抽出する軽量な感情学習者を提案する。
そこで我々は,感情学習者が明示的な感情ラベルを用いて感情認識特徴を抽出するための感情予測タスクを提案する。
論文 参考訳(メタデータ) (2021-08-18T08:04:38Z) - Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文 参考訳(メタデータ) (2021-05-20T06:55:40Z) - User and Item-aware Estimation of Review Helpfulness [4.640835690336653]
有用性決定因子としてのレビューの性質における逸脱の役割について検討する。
本稿では,従来のものを拡張した新しい有用性推定モデルを提案する。
そこで本モデルは,意思決定におけるユーザフィードバックの選択に有効なツールである。
論文 参考訳(メタデータ) (2020-11-20T15:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。