論文の概要: No Free Labels: Limitations of LLM-as-a-Judge Without Human Grounding
- arxiv url: http://arxiv.org/abs/2503.05061v1
- Date: Fri, 07 Mar 2025 00:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:26.428300
- Title: No Free Labels: Limitations of LLM-as-a-Judge Without Human Grounding
- Title(参考訳): フリーラベルなし:人間グラウンドのないLCM-as-a-Judgeの制限
- Authors: Michael Krumdick, Charles Lovering, Varshini Reddy, Seth Ebner, Chris Tanner,
- Abstract要約: 我々はLLM審査員が会話質問に対する応答が正しいかどうかを評価できるかどうかを評価する。
この分析のために作成された、既存のデータセットと、新しい挑戦的ベンチマーク(BFF-Bench)の組み合わせから、質問を引用する。
より高品質な基準を持つ弱い審査員を提供することは、より強い審査員よりも人間のアノテータとよりよく一致していることが示される。
- 参考スコア(独自算出の注目度): 3.1674468740431396
- License:
- Abstract: LLM-as-a-Judge is a framework that uses an LLM (large language model) to evaluate the quality of natural language text - typically text that is also generated by an LLM. This framework holds great promise due to its relative low-cost, ease of use, and strong correlations with human stylistic preferences. However, LLM Judges have been shown to exhibit biases that can distort their judgments. We evaluate how well LLM Judges can grade whether a given response to a conversational question is correct, an ability crucial to soundly estimating the overall response quality. To do so, we create and publicly release a human-annotated dataset with labels of correctness for 1,200 LLM responses. We source questions from a combination of existing datasets and a novel, challenging benchmark (BFF-Bench) created for this analysis. We demonstrate a strong connection between an LLM's ability to correctly answer a question and grade responses to that question. Although aggregate level statistics might imply a judge has high agreement with human annotators, it will struggle on the subset of questions it could not answer. To address this issue, we recommend a simple solution: provide the judge with a correct, human-written reference answer. We perform an in-depth analysis on how reference quality can affect the performance of an LLM Judge. We show that providing a weaker judge (e.g. Qwen 2.5 7B) with higher quality references reaches better agreement with human annotators than a stronger judge (e.g. GPT-4o) with synthetic references.
- Abstract(参考訳): LLM-as-a-Judgeは、LLM(大規模言語モデル)を使用して自然言語テキストの品質を評価するフレームワークである。
このフレームワークは、相対的な低コスト、使いやすさ、そして人間のスタイル的嗜好と強い相関関係のため、大きな可能性を秘めている。
しかし、LSM判事は判断を歪めるバイアスを示すことが示されている。
我々は,LLM審査員が会話質問に対する応答が正しいかどうかを判断し,全体の応答品質を正確に推定する能力を評価する。
そのため,1200 LLM応答に対する正当性を示すラベル付き人称注釈付きデータセットを作成し,公開する。
この分析のために作成された、既存のデータセットと、新しい挑戦的ベンチマーク(BFF-Bench)の組み合わせから、質問を引用する。
我々は,LLMが質問に正しく答える能力と,その質問に対する評価応答との間に強い関連性を示す。
集計レベル統計は、裁判官が人間のアノテータと高い合意を持っていることを示唆するかもしれないが、答えられない質問のサブセットで苦労するだろう。
この問題に対処するために、審査員に正しい人書きの参照回答を提供するという簡単な解決策を推奨する。
基準品質がLLM審査員のパフォーマンスにどのように影響するかを詳細に分析する。
より高品質な基準を持つ弱い判断者(例えば Qwen 2.5 7B)を合成基準を持つ強い判断者(例えば GPT-4o)よりもヒトのアノテータとよりよく一致していることを示す。
関連論文リスト
- Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - LLM-Rubric: A Multidimensional, Calibrated Approach to Automated Evaluation of Natural Language Texts [44.42036618863284]
本稿では,自然言語テキストの自動評価のためのフレームワークを提案する。
大規模言語モデル (LLM) は各ルーブリックな質問によって促され、潜在的な応答に対する分布を生成する。
LLMの予測は、人間の判断とうまく一致しないことが多い。
LLM-Rubricは、判断特化パラメータと判断非依存パラメータの両方を含む小さなフィードフォワードニューラルネットワークをトレーニングすることで、これを達成している。
論文 参考訳(メタデータ) (2024-12-31T04:57:01Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering [67.94354589215637]
大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。
本稿では,LLMの知識境界(KB)を半オープンな質問(SoeQ)で知覚する。
GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。
我々の補助モデルであるLLaMA-2-13Bは、より曖昧な答えを見つけるのに有効である。
論文 参考訳(メタデータ) (2024-05-23T10:00:14Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [48.053949045598344]
大規模言語モデル(LLM)をオープンなシナリオで評価することは、既存のベンチマークやメトリクスがそれらを包括的に測定できないため、難しい。
本稿では,拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率よく,かつ効率的に評価する手法を提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。