論文の概要: Learning Personalized Alignment for Evaluating Open-ended Text Generation
- arxiv url: http://arxiv.org/abs/2310.03304v4
- Date: Wed, 19 Jun 2024 22:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 06:37:18.927540
- Title: Learning Personalized Alignment for Evaluating Open-ended Text Generation
- Title(参考訳): オープンエンドテキスト生成評価のためのパーソナライズされたアライメントの学習
- Authors: Danqing Wang, Kevin Yang, Hanlin Zhu, Xiaomeng Yang, Andrew Cohen, Lei Li, Yuandong Tian,
- Abstract要約: 本稿では,人間の好みに合わせてアライメントを評価するための,解釈可能なオープンエンド評価フレームワークPerSEを提案する。
当社の13B LLaMA-2ベースのPerSEでは、ケンドール相関が15.8%増加し、ゼロショットレビュアーの精度が13.7%上昇している。
また、新しいドメインでのケンドール相関ではGPT-4を46.01%上回り、転送可能性を示している。
- 参考スコア(独自算出の注目度): 44.565686959174585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With rapid progress made in language qualities such as fluency and consistency via large language models (LLMs), there has been increasing interest in assessing alignment with diverse human preferences. Traditional metrics heavily rely on lexical similarity with human-written references and have been observed to suffer from a poor correlation with human evaluation. Furthermore, they ignore the diverse preferences of humans, a key aspect in evaluating open-ended tasks like story generation. Inspired by these challenges, we introduce an interpretable open-ended evaluation framework PerSE to assess the alignment with a specific human preference. It is tuned to deduce the specific preference from a given personal profile and evaluate the alignment between the generation and the personal preference. PerSE also explains its assessment by a detailed comment or several fine-grained scores. This enhances its interpretability, making it more suitable to tailor a personalized generation. Our 13B LLaMA-2-based PerSE shows a 15.8% increase in Kendall correlation and a 13.7% rise in accuracy on zero-shot reviewers compared to GPT-4. It also outperforms GPT-4 by 46.01% in the Kendall correlation on new domains, indicating its transferability.
- Abstract(参考訳): 言語モデル(LLM)による言語質の向上や,言語モデル(LLM)による一貫性の向上などにより,多種多様な人間の嗜好との整合性を評価することへの関心が高まっている。
従来のメトリクスは、人間の記述した参照と語彙的類似性に大きく依存しており、人間の評価との相関が弱いことが観察されている。
さらに、ストーリー生成のようなオープンなタスクを評価する上で重要な側面である、人間の多様な好みを無視している。
これらの課題に触発されて、我々は、特定の人間の嗜好との整合性を評価するために、解釈可能なオープンエンド評価フレームワークPerSEを導入した。
所定の個人プロファイルから特定の嗜好を推定し、生成と個人の嗜好の整合性を評価するように調整される。
PerSEはまた、その評価を詳細なコメントやいくつかの細かいスコアで説明している。
これにより解釈性が向上し、パーソナライズされた世代をカスタマイズするのがより適している。
我々の13B LLaMA-2ベースのPerSEは、GPT-4と比較してケンドール相関が15.8%増加し、ゼロショットレビュアーの精度が13.7%上昇している。
また、新しいドメインでのケンドール相関ではGPT-4を46.01%上回り、転送可能性を示している。
関連論文リスト
- Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。
ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (2024-05-02T17:59:35Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Automated Evaluation of Personalized Text Generation using Large
Language Models [38.2211640679274]
生成したテキストの3つの主要な意味的側面(パーソナライズ、品質、関連性)を抽出し、これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。
既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。
論文 参考訳(メタデータ) (2023-10-17T21:35:06Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Comparative Analysis of GPT-4 and Human Graders in Evaluating Praise
Given to Students in Synthetic Dialogues [2.3361634876233817]
AIチャットボットChatGPTのような大規模な言語モデルは、実践的な設定で家庭教師に建設的なフィードバックを提供する可能性を秘めている。
AIが生成したフィードバックの正確性はまだ不明であり、ChatGPTのようなモデルが効果的なフィードバックを提供する能力について研究している。
論文 参考訳(メタデータ) (2023-07-05T04:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。