論文の概要: CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
- arxiv url: http://arxiv.org/abs/2410.16256v1
- Date: Mon, 21 Oct 2024 17:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:21:15.291624
- Title: CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
- Title(参考訳): CompassJudger-1: モデル評価と進化を支援するオールインワンの判断モデル
- Authors: Maosong Cao, Alexander Lam, Haodong Duan, Hongwei Liu, Songyang Zhang, Kai Chen,
- Abstract要約: textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
- 参考スコア(独自算出の注目度): 74.41064280094064
- License:
- Abstract: Efficient and accurate evaluation is crucial for the continuous improvement of large language models (LLMs). Among various assessment methods, subjective evaluation has garnered significant attention due to its superior alignment with real-world usage scenarios and human preferences. However, human-based evaluations are costly and lack reproducibility, making precise automated evaluators (judgers) vital in this process. In this report, we introduce \textbf{CompassJudger-1}, the first open-source \textbf{all-in-one} judge LLM. CompassJudger-1 is a general-purpose LLM that demonstrates remarkable versatility. It is capable of: 1. Performing unitary scoring and two-model comparisons as a reward model; 2. Conducting evaluations according to specified formats; 3. Generating critiques; 4. Executing diverse tasks like a general LLM. To assess the evaluation capabilities of different judge models under a unified setting, we have also established \textbf{JudgerBench}, a new benchmark that encompasses various subjective evaluation tasks and covers a wide range of topics. CompassJudger-1 offers a comprehensive solution for various evaluation tasks while maintaining the flexibility to adapt to diverse requirements. Both CompassJudger and JudgerBench are released and available to the research community athttps://github.com/open-compass/CompassJudger. We believe that by open-sourcing these tools, we can foster collaboration and accelerate progress in LLM evaluation methodologies.
- Abstract(参考訳): 大規模言語モデル(LLM)の継続的な改善には,効率的かつ正確な評価が不可欠である。
様々な評価手法の中で、実世界の利用シナリオと人間の嗜好との整合性に優れた主観的評価が注目されている。
しかし、人間による評価はコストが高く再現性に欠けており、このプロセスにおいて正確な自動評価器(ジャッジ)が不可欠である。
本稿では,最初のオープンソースである LLM である \textbf{CompassJudger-1} を紹介する。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
能力は:
一 報酬モデルとして一意スコアと二モデル比較を行うこと。
2 特定様式による評価を行うこと。
3.批判の生成
4.一般LLMのような多様なタスクの実行。
また,異なる判断モデルの評価能力を統一的に評価するために,様々な主観的評価タスクを包含し,幅広いトピックをカバーする新しいベンチマークであるtextbf{JudgerBench} を作成した。
CompassJudger-1は、様々な評価タスクに対して、多様な要求に適応する柔軟性を維持しながら、包括的なソリューションを提供する。
CompassJudger と JudgerBench はいずれもリリースされ、https://github.com/open-compass/CompassJudger.comで研究コミュニティに公開されている。
これらのツールをオープンソース化することで、コラボレーションを促進し、LCM評価手法の進歩を加速できると考えています。
関連論文リスト
- Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot [2.186726107112913]
本稿では,モデルに基づく評価手法 TALEC を提案する。
ユーザは自分の評価基準を柔軟に設定でき、インコンテキストラーニング(ICL)を使って審査員にこれらの評価基準を教えることができる。
TALECは人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成している。
論文 参考訳(メタデータ) (2024-06-25T10:02:42Z) - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。
ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (2024-05-02T17:59:35Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - UMSE: Unified Multi-scenario Summarization Evaluation [52.60867881867428]
要約品質評価は、テキスト要約における非自明なタスクである。
統一多シナリオ要約評価モデル(UMSE)を提案する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
論文 参考訳(メタデータ) (2023-05-26T12:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。