論文の概要: Learning Personalized Story Evaluation
- arxiv url: http://arxiv.org/abs/2310.03304v3
- Date: Tue, 10 Oct 2023 15:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 19:32:07.780860
- Title: Learning Personalized Story Evaluation
- Title(参考訳): パーソナライズドストーリー評価の学習
- Authors: Danqing Wang, Kevin Yang, Hanlin Zhu, Xiaomeng Yang, Andrew Cohen, Lei
Li, Yuandong Tian
- Abstract要約: 未汚染のオープンエンド世代アセスメントにおけるパーソナライズをモデル化することを提案する。
我々は、適切な匿名化と新しいパーソナライズされたラベルで既存のデータセットを再購入することで、パーソナライズされたストーリー評価のための2つの新しいデータセットを作成する。
さらに,パーソナライズされたストーリー評価モデル PERSE を開発し,レビュアーの好みを推測し,パーソナライズされた評価を提供する。
- 参考スコア(独自算出の注目度): 46.48514028391478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have shown impressive results for more
objective tasks such as QA and retrieval, it remains nontrivial to evaluate
their performance on open-ended text generation for reasons including (1) data
contamination; (2) multi-dimensional evaluation criteria; and (3)
subjectiveness stemming from reviewers' personal preferences. To address such
issues, we propose to model personalization in an uncontaminated open-ended
generation assessment. We create two new datasets Per-MPST and Per-DOC for
personalized story evaluation, by re-purposing existing datasets with proper
anonymization and new personalized labels. We further develop a personalized
story evaluation model PERSE to infer reviewer preferences and provide a
personalized evaluation. Specifically, given a few exemplary reviews from a
particular reviewer, PERSE predicts either a detailed review or fine-grained
comparison in several aspects (such as interestingness and surprise) for that
reviewer on a new text input. Experimental results show that PERSE outperforms
GPT-4 by 15.8% on Kendall correlation of story ratings, and by 13.7% on
pairwise preference prediction accuracy. Both datasets and code will be
released.
- Abstract(参考訳): 大規模言語モデル(LLM)は,(1)データ汚染,(2)多次元評価基準,(3)レビュアーの個人的嗜好から生じる主観性などの理由から,オープンエンドテキスト生成の性能を評価することは容易ではない。
このような問題に対処するため,我々は汚染のないオープンエンド世代アセスメントにおいてパーソナライズをモデル化することを提案する。
既存のデータセットを適切な匿名化と新しいパーソナライズラベルで再提案することにより,mpst と per-doc の2つの新しいデータセットをパーソナライズストーリー評価用に作成する。
さらに,レビュー者の好みを推測するパーソナライズドストーリー評価モデルを開発し,パーソナライズドストーリー評価を提供する。
特に、あるレビュアーの模範的なレビューがいくつかあることを踏まえると、PERSEは、新しいテキスト入力に対するレビュアーの詳細なレビューまたはいくつかの側面(興味や驚きなど)の詳細な比較を予測している。
実験結果から, PERSEはGPT-4よりも15.8%, ストーリーレーティングのKendall相関は13.7%, ペア選択予測精度は13.7%向上した。
データセットとコードの両方がリリースされる。
関連論文リスト
- CRoP: Context-wise Robust Static Human-Sensing Personalization [7.303478793193849]
この研究は、新しい静的パーソナライズアプローチであるCRoPを導入している。
CRoPは、最小限のサブネットワーク上で適応的なプルーニングを行い、残りのパラメータの一般的な知識を保持しながら、ユーザ固有の特性をキャプチャする。
現実世界の健康ドメインの2つを含む4つの人間センシングデータセットに対して、パーソナライズの有効性とユーザ内ロバスト性を向上する。
論文 参考訳(メタデータ) (2024-09-26T16:06:38Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。
ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (2024-05-02T17:59:35Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Automated Evaluation of Personalized Text Generation using Large
Language Models [38.2211640679274]
生成したテキストの3つの主要な意味的側面(パーソナライズ、品質、関連性)を抽出し、これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。
既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。
論文 参考訳(メタデータ) (2023-10-17T21:35:06Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。