Fugu-MT 論文翻訳(概要): Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

論文の概要: Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

arxiv url: http://arxiv.org/abs/2310.08491v1
Date: Thu, 12 Oct 2023 16:50:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 08:45:41.076204
Title: Prometheus: Inducing Fine-grained Evaluation Capability in Language Models
Title（参考訳）: Prometheus: 言語モデルにおけるきめ細かい評価機能の導入
Authors: Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo
Abstract要約: 我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。 Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
参考スコア（独自算出の注目度）: 66.12432440863816
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, using a powerful proprietary Large Language Model (LLM) (e.g., GPT-4) as an evaluator for long-form responses has become the de facto standard. However, for practitioners with large-scale evaluation tasks and custom criteria in consideration (e.g., child-readability), using proprietary LLMs as an evaluator is unreliable due to the closed-source nature, uncontrolled versioning, and prohibitive costs. In this work, we propose Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation capabilities when the appropriate reference materials (reference answer, score rubric) are accompanied. We first construct the Feedback Collection, a new dataset that consists of 1K fine-grained score rubrics, 20K instructions, and 100K responses and language feedback generated by GPT-4. Using the Feedback Collection, we train Prometheus, a 13B evaluator LLM that can assess any given long-form text based on customized score rubric provided by the user. Experimental results show that Prometheus scores a Pearson correlation of 0.897 with human evaluators when evaluating with 45 customized score rubrics, which is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392). Furthermore, measuring correlation with GPT-4 with 1222 customized score rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) shows similar trends, bolstering Prometheus's capability as an evaluator LLM. Lastly, Prometheus achieves the highest accuracy on two human preference benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced reward models explicitly trained on human preference datasets, highlighting its potential as an universal reward model. We open-source our code, dataset, and model at https://github.com/kaistAI/Prometheus.
Abstract（参考訳）: 近年,Large Language Model (LLM, GPT-4) を長文応答評価器として活用することがデファクトスタンダードとなっている。しかし, 大規模評価課題や, 子どもの可読性などの特質を考慮に入れた実践者に対しては, プロプライエタリなLCMを評価対象として使用することは, クローズドソースの性質, 制御不能なバージョニング, 禁止費用などにより信頼性が低い。本稿では,適切な参照材料(参照応答,スコアルーリック)を添付した場合に,GPT-4の評価能力に匹敵する完全オープンソースLPMであるPrometheusを提案する。まず、GPT-4で生成された1Kの微粒なスコアルーブリック、20Kの命令、100Kの応答と言語フィードバックからなる新しいデータセットであるFeedback Collectionを構築した。フィードバックコレクションを使用することで、ユーザがカスタマイズしたスコアルーブリックに基づいて、任意の長文を評価可能な13B評価用LLMであるPrometheusをトレーニングする。実験結果から, GPT-4(0.882), ChatGPT(0.392)に匹敵する45種類の楽譜を用いた評価において, Prometheus は Pearson と人間評価器との相関を0.897 と評価した。さらに、4つのベンチマーク(MT Bench, Vicuna Bench, Feedback Bench, Flask Eval)にまたがる1222個のスコアルーブリックを用いたGPT-4の相関測定も同様の傾向を示し、PrometheusのLCMとしての能力を高めている。最後に、Prometheusは、人間の嗜好データセットで明示的に訓練されたオープンソース報酬モデルと比較して、2つの人選好ベンチマーク(HHH AlignmentとMT Bench Human Judgment)で最高精度を達成し、普遍的な報奨モデルとしての可能性を強調している。コード、データセット、モデルをhttps://github.com/kaistAI/Prometheus.comでオープンソース化しました。

関連論文リスト

From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
A Fine-grained Sentiment Analysis of App Reviews using Large Language Models: An Evaluation Study [1.0787328610467801]
大きな言語モデル(LLM)は、モデルのパラメータを更新することなく、いくつかの新しいタスクで素晴らしいパフォーマンスを示している。本研究は,GPT-4,ChatGPT,LLama-2-chatなど最先端のLCMの性能を比較し,アプリの特徴を抽出する。その結果、GPT-4モデルは、0ショット特徴抽出によるf1スコアにおいて、ルールベースのアプローチを23.6%上回る性能を示した。
論文参考訳（メタデータ） (2024-09-11T10:21:13Z)
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。 4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文参考訳（メタデータ） (2024-05-02T17:59:35Z)
Rethinking Generative Large Language Model Evaluation for Semantic Comprehension [27.21438605541497]
本稿では,複数の選択質問応答(MCQA)の評価方法について再検討する。 RWQ-Elo レーティングシステムを導入し,24大言語モデル (LLM) を2プレイヤーの競争形式で動作させ,GPT-4 を審査員とする。このシステムは実世界の利用を反映するように設計されており、そのためにRWQ(Real-world Question')と呼ばれる新しいベンチマークをコンパイルした。我々の分析は、我々のRWQ-Eloシステムの安定性、新しいモデル登録の可能性、そしてその可能性を明らかにする。
論文参考訳（メタデータ） (2024-03-12T17:59:48Z)
Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。 ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文参考訳（メタデータ） (2023-10-20T20:17:09Z)
A Closer Look into Automatic Evaluation Using Large Language Models [75.49360351036773]
評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。 G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
論文参考訳（メタデータ） (2023-10-09T12:12:55Z)
Learning Personalized Alignment for Evaluating Open-ended Text Generation [44.565686959174585]
PerSEは、特定の人間の好みに合わせてアライメントを評価するために設計された解釈可能な評価フレームワークである。テキスト内個人プロファイルから特定の好みを推測し、生成されたコンテンツと個人の好みとの整合性を評価するように調整される。当社の13B LLaMA-2ベースのPerSEは、ケダル相関が15.8%増加し、ゼロショットレビュアーによる13.7%の精度向上を示している。
論文参考訳（メタデータ） (2023-10-05T04:15:48Z)
Split and Merge: Aligning Position Biases in Large Language Model based Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。 GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文参考訳（メタデータ） (2023-09-29T14:38:58Z)
FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。 FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文参考訳（メタデータ） (2023-05-23T17:06:00Z)
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。 GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (2023-03-29T12:46:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。