Fugu-MT 論文翻訳(概要): An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Models are Task-specific Classifiers

論文の概要: An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Models are Task-specific Classifiers

arxiv url: http://arxiv.org/abs/2403.02839v1
Date: Tue, 5 Mar 2024 10:20:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 15:20:22.578593
Title: An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Models are Task-specific Classifiers
Title（参考訳）: LLM評価のためのLCM-as-a-Judgeに関する実証的研究:細調整された判断モデルはタスク固有分類器である
Authors: Hui Huang, Yingqi Qu, Jing Liu, Muyun Yang, Tiejun Zhao
Abstract要約: 本研究では,その評価能力について,異なる判断モデルの実証的研究を行った。提案手法は, GPT4を超越しても, ドメイン内テストセットの精度は高いが, 本来はタスク固有の分類器であることが示唆された。
参考スコア（独自算出の注目度）: 34.842890348136386
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, there has been a growing trend of utilizing Large Language Model (LLM) to evaluate the quality of other LLMs. Many studies have employed proprietary close-source models, especially GPT4, as the evaluator. Alternatively, other works have fine-tuned judge models based on open-source LLMs as the evaluator. In this study, we conduct an empirical study of different judge models on their evaluation capability. Our findings indicate that although the fine-tuned judge models achieve high accuracy on in-domain test sets, even surpassing GPT4, they are inherently task-specific classifiers, and their generalizability and fairness severely underperform GPT4.
Abstract（参考訳）: 近年,Large Language Model (LLM) を用いて他のLLMの品質を評価する傾向が高まっている。多くの研究はプロプライエタリなオープンソースモデル、特にGPT4を評価手段として採用している。あるいは、オープンソースのLCMに基づいて微調整された判断モデルを評価対象とする作品もある。本研究では,評価能力の異なる判断モデルについて,実験的検討を行った。 GPT4を超越してもドメイン内テストセットの精度は高いが、本来はタスク固有の分類器であり、その一般化性と公平性はGPT4より著しく劣っている。

関連論文リスト

Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文参考訳（メタデータ） (2025-06-03T14:44:23Z)
J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。我々はReasoningJudgeBenchというベンチマークを紹介します。 EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文参考訳（メタデータ） (2025-05-19T16:50:35Z)
JudgeLRM: Large Reasoning Models as a Judge [65.14085339820795]
我々は,Large Language Models (LLMs) の判断が推論能力の強化から真に恩恵を受けるかどうかを考察する。本稿では、強化学習(RL)を用いて学習した判断指向LLMのファミリーであるジャッジLRMを紹介する。
論文参考訳（メタデータ） (2025-03-31T02:18:51Z)
Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T04:50:43Z)
Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文参考訳（メタデータ） (2024-09-23T02:08:20Z)
GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering [0.0]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) をプライベートおよび最新の知識ベースと共に使用する共通のパラダイムとして登場した。本稿では,RAG システムによって生成される接地回答を評価する際に LLM-as-a-Judge を用いる際の課題に対処する。
論文参考訳（メタデータ） (2024-09-10T15:39:32Z)
See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。 GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文参考訳（メタデータ） (2024-08-16T19:01:52Z)
Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。 GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文参考訳（メタデータ） (2024-07-05T12:30:02Z)
RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。 RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-05-27T14:37:01Z)
Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文参考訳（メタデータ） (2024-05-17T03:50:28Z)
Open Source Language Models Can Provide Feedback: Evaluating LLMs' Ability to Help Students Using GPT-4-As-A-Judge [4.981275578987307]
大規模言語モデル(LLM)は、幅広いコンピューティングコンテキストにおけるフィードバックの自動生成に大きな可能性を示している。しかし、学生の仕事をプロプライエタリなモデルに送ることのプライバシーと倫理的意味について懸念の声が上がっている。このことは、教育におけるオープンソースのLLMの使用に大きな関心を呼んだが、そのようなオープンモデルが生み出すフィードバックの品質は、まだ検討されていない。
論文参考訳（メタデータ） (2024-05-08T17:57:39Z)
Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文参考訳（メタデータ） (2024-04-29T15:33:23Z)
Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。 ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文参考訳（メタデータ） (2023-10-20T20:17:09Z)
Split and Merge: Aligning Position Biases in Large Language Model based Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。 GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文参考訳（メタデータ） (2023-09-29T14:38:58Z)
Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。 GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。 BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文参考訳（メタデータ） (2023-03-25T03:08:49Z)
GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (2023-03-15T17:15:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。