論文の概要: JudgeLM: Fine-tuned Large Language Models are Scalable Judges
- arxiv url: http://arxiv.org/abs/2310.17631v1
- Date: Thu, 26 Oct 2023 17:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:26:36.671413
- Title: JudgeLM: Fine-tuned Large Language Models are Scalable Judges
- Title(参考訳): judgeLM: 微調整された大規模言語モデルはスケーラブルなジャッジ
- Authors: Lianghui Zhu, Xinggang Wang, Xinlong Wang
- Abstract要約: 大規模言語モデル (LLM) を拡張性判断器 (JudgeLM) として微調整し, LLM を効率よく, かつ効率的に評価する手法を提案する。
まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。
次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
- 参考スコア(独自算出の注目度): 54.007823006976516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating Large Language Models (LLMs) in open-ended scenarios is
challenging because existing benchmarks and metrics can not measure them
comprehensively. To address this problem, we propose to fine-tune LLMs as
scalable judges (JudgeLM) to evaluate LLMs efficiently and effectively in
open-ended benchmarks. We first propose a comprehensive, large-scale,
high-quality dataset containing task seeds, LLMs-generated answers, and
GPT-4-generated judgments for fine-tuning high-performance judges, as well as a
new benchmark for evaluating the judges. We train JudgeLM at different scales
from 7B, 13B, to 33B parameters, and conduct a systematic analysis of its
capabilities and behaviors. We then analyze the key biases in fine-tuning LLM
as a judge and consider them as position bias, knowledge bias, and format bias.
To address these issues, JudgeLM introduces a bag of techniques including swap
augmentation, reference support, and reference drop, which clearly enhance the
judge's performance. JudgeLM obtains the state-of-the-art judge performance on
both the existing PandaLM benchmark and our proposed new benchmark. Our JudgeLM
is efficient and the JudgeLM-7B only needs 3 minutes to judge 5K samples with 8
A100 GPUs. JudgeLM obtains high agreement with the teacher judge, achieving an
agreement exceeding 90% that even surpasses human-to-human agreement. JudgeLM
also demonstrates extended capabilities in being judges of the single answer,
multimodal models, multiple answers, and multi-turn chat.
- Abstract(参考訳): 既存のベンチマークやメトリクスがそれらを包括的に測定できないため、オープンエンドシナリオにおけるLLM(Large Language Models)の評価は難しい。
この問題に対処するため,我々は拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率的に効率的に評価する手法を提案する。
まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
これらの問題に対処するため、JiceLMはスワップ強化、参照サポート、参照ドロップを含む一連のテクニックを導入し、裁判官のパフォーマンスを明確に向上させた。
judgeLMは既存のPandaLMベンチマークと提案した新しいベンチマークの両方で最先端の判定性能を得る。
judgeLM-7Bは8A100 GPUで5Kサンプルを判定するのに3分しか必要ありません。
ジャッジルムは教師の裁判官と高い合意を得、90%を超える合意に達し、人間同士の合意を超えた。
judgeLMはまた、単一の回答、マルチモーダルモデル、複数の回答、マルチターンチャットの判断機能の拡張をデモしている。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか?
その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文 参考訳(メタデータ) (2024-09-23T17:58:07Z) - From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks [11.01213914485374]
数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
本研究では,各モデルのタスク性能などの統計データを用いて,判定性能の予測を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2024-09-06T10:09:41Z) - MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation? [59.7772329962047]
MJ-Benchは、マルチモーダル・ジャッジを評価するために、包括的な選好データセットを組み込んだ新しいベンチマークである。
具体的には、より小型のCLIPベースのスコアリングモデル、オープンソースのVLM、オープンソースのVLMなど、様々なマルチモーダル・ジャッジを評価する。
実験の結果、オープンソースのVLMは一般的にフィードバックが良く、GPT-4oは他の審査員を平均上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-05T20:03:16Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - Humans or LLMs as the Judge? A Study on Judgement Biases [17.069314000437537]
本稿では, LLM および人間審査員に対する誤情報監視バイアス, ジェンダーバイアス, オーソリティバイアス, 美容バイアスを調査するための基礎的アノテーションの参照が不要な新しい枠組みを提案する。
その結果、人間とLLMの裁判官は様々な程度に摂動に弱いこと、そして最先端の裁判官でさえかなりの偏見を持っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-16T13:21:06Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。