論文の概要: Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models
- arxiv url: http://arxiv.org/abs/2310.08491v2
- Date: Sat, 9 Mar 2024 10:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:50:30.709260
- Title: Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models
- Title(参考訳): Prometheus: 言語モデルにおけるきめ細かい評価機能の導入
- Authors: Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran
Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo
- Abstract要約: 我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
- 参考スコア(独自算出の注目度): 66.12432440863816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, using a powerful proprietary Large Language Model (LLM) (e.g.,
GPT-4) as an evaluator for long-form responses has become the de facto
standard. However, for practitioners with large-scale evaluation tasks and
custom criteria in consideration (e.g., child-readability), using proprietary
LLMs as an evaluator is unreliable due to the closed-source nature,
uncontrolled versioning, and prohibitive costs. In this work, we propose
Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation
capabilities when the appropriate reference materials (reference answer, score
rubric) are accompanied. We first construct the Feedback Collection, a new
dataset that consists of 1K fine-grained score rubrics, 20K instructions, and
100K responses and language feedback generated by GPT-4. Using the Feedback
Collection, we train Prometheus, a 13B evaluator LLM that can assess any given
long-form text based on customized score rubric provided by the user.
Experimental results show that Prometheus scores a Pearson correlation of 0.897
with human evaluators when evaluating with 45 customized score rubrics, which
is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392).
Furthermore, measuring correlation with GPT-4 with 1222 customized score
rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask
Eval) shows similar trends, bolstering Prometheus's capability as an evaluator
LLM. Lastly, Prometheus achieves the highest accuracy on two human preference
benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced
reward models explicitly trained on human preference datasets, highlighting its
potential as an universal reward model. We open-source our code, dataset, and
model at https://kaistai.github.io/prometheus/.
- Abstract(参考訳): 近年,Large Language Model (LLM, GPT-4) を長文応答評価器として活用することがデファクトスタンダードとなっている。
しかし, 大規模評価課題や, 子どもの可読性などの特質を考慮に入れた実践者に対しては, プロプライエタリなLCMを評価対象として使用することは, クローズドソースの性質, 制御不能なバージョニング, 禁止費用などにより信頼性が低い。
本稿では,適切な参照材料(参照応答,スコアルーリック)を添付した場合に,GPT-4の評価能力に匹敵する完全オープンソースLPMであるPrometheusを提案する。
まず、GPT-4で生成された1Kの微粒なスコアルーブリック、20Kの命令、100Kの応答と言語フィードバックからなる新しいデータセットであるFeedback Collectionを構築した。
フィードバックコレクションを使用することで、ユーザがカスタマイズしたスコアルーブリックに基づいて、任意の長文を評価可能な13B評価用LLMであるPrometheusをトレーニングする。
実験結果から, GPT-4(0.882), ChatGPT(0.392)に匹敵する45種類の楽譜を用いた評価において, Prometheus は Pearson と人間評価器との相関を0.897 と評価した。
さらに、4つのベンチマーク(MT Bench, Vicuna Bench, Feedback Bench, Flask Eval)にまたがる1222個のスコアルーブリックを用いたGPT-4の相関測定も同様の傾向を示し、PrometheusのLCMとしての能力を高めている。
最後に、Prometheusは、人間の嗜好データセットで明示的に訓練されたオープンソース報酬モデルと比較して、2つの人選好ベンチマーク(HHH AlignmentとMT Bench Human Judgment)で最高精度を達成し、普遍的な報奨モデルとしての可能性を強調している。
コード、データセット、モデルをhttps://kaistai.github.io/prometheus/でオープンソース化しています。
関連論文リスト
- A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - A Fine-grained Sentiment Analysis of App Reviews using Large Language Models: An Evaluation Study [1.0787328610467801]
大きな言語モデル(LLM)は、モデルのパラメータを更新することなく、いくつかの新しいタスクで素晴らしいパフォーマンスを示している。
本研究は,GPT-4,ChatGPT,LLama-2-chatなど最先端のLCMの性能を比較し,アプリの特徴を抽出する。
その結果、GPT-4モデルは、0ショット特徴抽出によるf1スコアにおいて、ルールベースのアプローチを23.6%上回る性能を示した。
論文 参考訳(メタデータ) (2024-09-11T10:21:13Z) - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。
ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (2024-05-02T17:59:35Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - A Closer Look into Automatic Evaluation Using Large Language Models [75.49360351036773]
評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。
G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。
また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
論文 参考訳(メタデータ) (2023-10-09T12:12:55Z) - Learning Personalized Alignment for Evaluating Open-ended Text Generation [44.565686959174585]
PerSEは、特定の人間の好みに合わせてアライメントを評価するために設計された解釈可能な評価フレームワークである。
テキスト内個人プロファイルから特定の好みを推測し、生成されたコンテンツと個人の好みとの整合性を評価するように調整される。
当社の13B LLaMA-2ベースのPerSEは、ケダル相関が15.8%増加し、ゼロショットレビュアーによる13.7%の精度向上を示している。
論文 参考訳(メタデータ) (2023-10-05T04:15:48Z) - Split and Merge: Aligning Position Biases in Large Language Model based
Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。