論文の概要: An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned
Judge Models are Task-specific Classifiers
- arxiv url: http://arxiv.org/abs/2403.02839v1
- Date: Tue, 5 Mar 2024 10:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:20:22.578593
- Title: An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned
Judge Models are Task-specific Classifiers
- Title(参考訳): LLM評価のためのLCM-as-a-Judgeに関する実証的研究:細調整された判断モデルはタスク固有分類器である
- Authors: Hui Huang, Yingqi Qu, Jing Liu, Muyun Yang, Tiejun Zhao
- Abstract要約: 本研究では,その評価能力について,異なる判断モデルの実証的研究を行った。
提案手法は, GPT4を超越しても, ドメイン内テストセットの精度は高いが, 本来はタスク固有の分類器であることが示唆された。
- 参考スコア(独自算出の注目度): 34.842890348136386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been a growing trend of utilizing Large Language Model
(LLM) to evaluate the quality of other LLMs. Many studies have employed
proprietary close-source models, especially GPT4, as the evaluator.
Alternatively, other works have fine-tuned judge models based on open-source
LLMs as the evaluator. In this study, we conduct an empirical study of
different judge models on their evaluation capability. Our findings indicate
that although the fine-tuned judge models achieve high accuracy on in-domain
test sets, even surpassing GPT4, they are inherently task-specific classifiers,
and their generalizability and fairness severely underperform GPT4.
- Abstract(参考訳): 近年,Large Language Model (LLM) を用いて他のLLMの品質を評価する傾向が高まっている。
多くの研究はプロプライエタリなオープンソースモデル、特にGPT4を評価手段として採用している。
あるいは、オープンソースのLCMに基づいて微調整された判断モデルを評価対象とする作品もある。
本研究では,評価能力の異なる判断モデルについて,実験的検討を行った。
GPT4を超越してもドメイン内テストセットの精度は高いが、本来はタスク固有の分類器であり、その一般化性と公平性はGPT4より著しく劣っている。
関連論文リスト
- Open Source Language Models Can Provide Feedback: Evaluating LLMs' Ability to Help Students Using GPT-4-As-A-Judge [4.981275578987307]
大規模言語モデル(LLM)は、幅広いコンピューティングコンテキストにおけるフィードバックの自動生成に大きな可能性を示している。
しかし、学生の仕事をプロプライエタリなモデルに送ることのプライバシーと倫理的意味について懸念の声が上がっている。
このことは、教育におけるオープンソースのLLMの使用に大きな関心を呼んだが、そのようなオープンモデルが生み出すフィードバックの品質は、まだ検討されていない。
論文 参考訳(メタデータ) (2024-05-08T17:57:39Z) - Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - PRE: A Peer Review Based Large Language Model Evaluator [15.647772081061987]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - Benchmarking Cognitive Biases in Large Language Models as Evaluators [17.850224207182062]
大規模言語モデル(LLM)は、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。
評価器としてのLCMの認知バイアスベンチマーク(CoBBLEr)を導入したランキングアウトプットの品質を評価する。
LLMはテキスト品質評価器であり、バイアスベンチマークに強い指標を示す。
論文 参考訳(メタデータ) (2023-09-29T06:53:10Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。