論文の概要: Learning Personalized Alignment for Evaluating Open-ended Text Generation
- arxiv url: http://arxiv.org/abs/2310.03304v4
- Date: Wed, 19 Jun 2024 22:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 06:37:18.927540
- Title: Learning Personalized Alignment for Evaluating Open-ended Text Generation
- Title(参考訳): オープンエンドテキスト生成評価のためのパーソナライズされたアライメントの学習
- Authors: Danqing Wang, Kevin Yang, Hanlin Zhu, Xiaomeng Yang, Andrew Cohen, Lei Li, Yuandong Tian,
- Abstract要約: 本稿では,人間の好みに合わせてアライメントを評価するための,解釈可能なオープンエンド評価フレームワークPerSEを提案する。
当社の13B LLaMA-2ベースのPerSEでは、ケンドール相関が15.8%増加し、ゼロショットレビュアーの精度が13.7%上昇している。
また、新しいドメインでのケンドール相関ではGPT-4を46.01%上回り、転送可能性を示している。
- 参考スコア(独自算出の注目度): 44.565686959174585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With rapid progress made in language qualities such as fluency and consistency via large language models (LLMs), there has been increasing interest in assessing alignment with diverse human preferences. Traditional metrics heavily rely on lexical similarity with human-written references and have been observed to suffer from a poor correlation with human evaluation. Furthermore, they ignore the diverse preferences of humans, a key aspect in evaluating open-ended tasks like story generation. Inspired by these challenges, we introduce an interpretable open-ended evaluation framework PerSE to assess the alignment with a specific human preference. It is tuned to deduce the specific preference from a given personal profile and evaluate the alignment between the generation and the personal preference. PerSE also explains its assessment by a detailed comment or several fine-grained scores. This enhances its interpretability, making it more suitable to tailor a personalized generation. Our 13B LLaMA-2-based PerSE shows a 15.8% increase in Kendall correlation and a 13.7% rise in accuracy on zero-shot reviewers compared to GPT-4. It also outperforms GPT-4 by 46.01% in the Kendall correlation on new domains, indicating its transferability.
- Abstract(参考訳): 言語モデル(LLM)による言語質の向上や,言語モデル(LLM)による一貫性の向上などにより,多種多様な人間の嗜好との整合性を評価することへの関心が高まっている。
従来のメトリクスは、人間の記述した参照と語彙的類似性に大きく依存しており、人間の評価との相関が弱いことが観察されている。
さらに、ストーリー生成のようなオープンなタスクを評価する上で重要な側面である、人間の多様な好みを無視している。
これらの課題に触発されて、我々は、特定の人間の嗜好との整合性を評価するために、解釈可能なオープンエンド評価フレームワークPerSEを導入した。
所定の個人プロファイルから特定の嗜好を推定し、生成と個人の嗜好の整合性を評価するように調整される。
PerSEはまた、その評価を詳細なコメントやいくつかの細かいスコアで説明している。
これにより解釈性が向上し、パーソナライズされた世代をカスタマイズするのがより適している。
我々の13B LLaMA-2ベースのPerSEは、GPT-4と比較してケンドール相関が15.8%増加し、ゼロショットレビュアーの精度が13.7%上昇している。
また、新しいドメインでのケンドール相関ではGPT-4を46.01%上回り、転送可能性を示している。
関連論文リスト
- CRoP: Context-wise Robust Static Human-Sensing Personalization [7.303478793193849]
この研究は、新しい静的パーソナライズアプローチであるCRoPを導入している。
CRoPは、最小限のサブネットワーク上で適応的なプルーニングを行い、残りのパラメータの一般的な知識を保持しながら、ユーザ固有の特性をキャプチャする。
現実世界の健康ドメインの2つを含む4つの人間センシングデータセットに対して、パーソナライズの有効性とユーザ内ロバスト性を向上する。
論文 参考訳(メタデータ) (2024-09-26T16:06:38Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。
ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (2024-05-02T17:59:35Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Automated Evaluation of Personalized Text Generation using Large
Language Models [38.2211640679274]
生成したテキストの3つの主要な意味的側面(パーソナライズ、品質、関連性)を抽出し、これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。
既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。
論文 参考訳(メタデータ) (2023-10-17T21:35:06Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。