Fugu-MT 論文翻訳(概要): Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models

論文の概要: Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models

arxiv url: http://arxiv.org/abs/2404.18796v1
Date: Mon, 29 Apr 2024 15:33:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 13:08:44.501001
Title: Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models
Title（参考訳）: 陪審員による審査員のリプレース:多変量モデルによるLCM生成の評価
Authors: Pat Verga, Sebastian Hofstatter, Sophia Althammer, Yixuan Su, Aleksandra Piktus, Arkady Arkhangorodsky, Minjie Xu, Naomi White, Patrick Lewis,
Abstract要約: LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
参考スコア（独自算出の注目度）: 56.02275285521847
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Large Language Models (LLMs) have become more advanced, they have outpaced our abilities to accurately evaluate their quality. Not only is finding data to adequately probe particular model properties difficult, but evaluating the correctness of a model's freeform generation alone is a challenge. To address this, many evaluations now rely on using LLMs themselves as judges to score the quality of outputs from other LLMs. Evaluations most commonly use a single large model like GPT4. While this method has grown in popularity, it is costly, has been shown to introduce intramodel bias, and in this work, we find that very large models are often unnecessary. We propose instead to evaluate models using a Panel of LLm evaluators (PoLL). Across three distinct judge settings and spanning six different datasets, we find that using a PoLL composed of a larger number of smaller models outperforms a single large judge, exhibits less intra-model bias due to its composition of disjoint model families, and does so while being over seven times less expensive.
Abstract（参考訳）: LLM(Large Language Models)がさらに進歩するにつれて、その品質を正確に評価する能力が向上しました。特定のモデル特性を適切に調査するデータを見つけることは困難であるだけでなく、モデルの自由形式生成のみの正確性を評価することが困難である。これを解決するために、多くの評価は、他のLLMからの出力の質を評価するために、LLM自体を審査員として使用することに頼っている。評価はGPT4のような単一の大きなモデルを使用するのが一般的である。この手法は広く普及しているが、コストが高く、モデル内バイアスをもたらすことが示されており、本研究では、非常に大きなモデルがしばしば不要であることが判明している。代わりに、LLm評価器(PoLL)のパネルを用いてモデルを評価することを提案する。 3つの異なる判断設定と6つの異なるデータセットにまたがって、より多数の小さなモデルで構成されたPoLLは、1つの大きな判断よりも優れており、不整合モデルファミリーの構成によるモデル内バイアスが小さく、しかも7倍以上のコストがかかる。

関連論文リスト

Truth or Twist? Optimal Model Selection for Reliable Label Flipping Evaluation in LLM-based Counterfactuals [12.846807471105064]
ジャッジモデルは、大きな言語モデルに対して生成されたカウンターファクトの妥当性を評価するために使用される。独立な非微調整関係を持つ判定モデルは,最も信頼性の高いラベルフリップ評価を提供することを示す。その結果、最も効果的な判断モデルとユーザスタディから得られる結果とのギャップは、依然としてかなり大きいことが判明した。
論文参考訳（メタデータ） (2025-05-20T06:12:17Z)
Bi'an: A Bilingual Benchmark and Model for Hallucination Detection in Retrieval-Augmented Generation [6.549143816134529]
bftextBi'anはバイリンガルベンチマークデータセットと軽量判定モデルを備えた新しいフレームワークである。データセットは、複数のRAGシナリオにわたる厳密な評価をサポートし、審査モデルは、コンパクトなオープンソースLLMから微調整される。
論文参考訳（メタデータ） (2025-02-26T15:12:59Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Limits to scalable evaluation at the frontier: LLM as Judge won't beat twice the data [14.95829896035971]
新たなデバイアスツールのファミリーは、いくつかの高品質なラベルを使用して多数のモデル判断をデバイアスすることで、問題を解決することを約束している。本研究の主目的は,審査員が評価モデルに比較して精度が低い場合,デバイアス法が要求される地上の真実ラベルの量を半分以上減らすことができないことである。
論文参考訳（メタデータ） (2024-10-17T08:49:42Z)
Bias Similarity Across Large Language Models [32.0365189539138]
我々は2つのデータセット(4Kと100万の質問)を用いて複数の次元にわたる出力分布を通してバイアスを分析する。結果から,微調整が出力分布に与える影響は最小限であり,プロプライエタリなモデルは未知として過度に応答し,バイアスを最小化し,精度と実用性を損なう傾向にあることがわかった。 Llama3-ChatやGemma2-itのようなオープンソースモデルは、GPT-4のようなプロプライエタリなモデルに匹敵する公平さを示し、大規模でクローズドソースなモデルは本質的にバイアスが小さいという仮定に挑戦する。
論文参考訳（メタデータ） (2024-10-15T19:21:14Z)
What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。本研究は,大規模モデルマージの有用性を体系的に評価する。
論文参考訳（メタデータ） (2024-10-04T17:17:19Z)
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation? [59.7772329962047]
MJ-Benchは、マルチモーダル・ジャッジを評価するために、包括的な選好データセットを組み込んだ新しいベンチマークである。具体的には、より小型のCLIPベースのスコアリングモデル、オープンソースのVLM、オープンソースのVLMなど、様々なマルチモーダル・ジャッジを評価する。実験の結果、オープンソースのVLMは一般的にフィードバックが良く、GPT-4oは他の審査員を平均上回っていることがわかった。
論文参考訳（メタデータ） (2024-07-05T20:03:16Z)
Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks [3.58262772907022]
言語モデル協議会(LMC: Language Model Council)では、LLMのグループが協力してテストを作成し、それに反応し、お互いの反応を評価してランキングを作成する。感情的インテリジェンスに関する詳細なケーススタディでは、対人対立に対するオープン・エンド・レスポンスにおいて、20の最近のLCMを相互にランク付けするために配置する。以上の結果から, LMCは, より分離性が高く, より堅牢なランキングを作成でき, ユーザスタディにより, 個々のLCM審査員よりも人的評価に整合性があることが示唆された。
論文参考訳（メタデータ） (2024-06-12T19:05:43Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Investigating Ensemble Methods for Model Robustness Improvement of Text Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文参考訳（メタデータ） (2022-10-28T17:52:10Z)
Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文参考訳（メタデータ） (2022-01-17T01:26:09Z)
When Ensembling Smaller Models is More Efficient than Single Large Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文参考訳（メタデータ） (2020-05-01T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。