論文の概要: LLM-Rubric: A Multidimensional, Calibrated Approach to Automated Evaluation of Natural Language Texts
- arxiv url: http://arxiv.org/abs/2501.00274v1
- Date: Tue, 31 Dec 2024 04:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:57.812766
- Title: LLM-Rubric: A Multidimensional, Calibrated Approach to Automated Evaluation of Natural Language Texts
- Title(参考訳): LLM-Rubric:自然言語テキストの自動評価のための多次元校正手法
- Authors: Helia Hashemi, Jason Eisner, Corby Rosset, Benjamin Van Durme, Chris Kedzie,
- Abstract要約: 本稿では,自然言語テキストの自動評価のためのフレームワークを提案する。
大規模言語モデル (LLM) は各ルーブリックな質問によって促され、潜在的な応答に対する分布を生成する。
LLMの予測は、人間の判断とうまく一致しないことが多い。
LLM-Rubricは、判断特化パラメータと判断非依存パラメータの両方を含む小さなフィードフォワードニューラルネットワークをトレーニングすることで、これを達成している。
- 参考スコア(独自算出の注目度): 44.42036618863284
- License:
- Abstract: This paper introduces a framework for the automated evaluation of natural language texts. A manually constructed rubric describes how to assess multiple dimensions of interest. To evaluate a text, a large language model (LLM) is prompted with each rubric question and produces a distribution over potential responses. The LLM predictions often fail to agree well with human judges -- indeed, the humans do not fully agree with one another. However, the multiple LLM distributions can be $\textit{combined}$ to $\textit{predict}$ each human judge's annotations on all questions, including a summary question that assesses overall quality or relevance. LLM-Rubric accomplishes this by training a small feed-forward neural network that includes both judge-specific and judge-independent parameters. When evaluating dialogue systems in a human-AI information-seeking task, we find that LLM-Rubric with 9 questions (assessing dimensions such as naturalness, conciseness, and citation quality) predicts human judges' assessment of overall user satisfaction, on a scale of 1--4, with RMS error $< 0.5$, a $2\times$ improvement over the uncalibrated baseline.
- Abstract(参考訳): 本稿では,自然言語テキストの自動評価のためのフレームワークを提案する。
手動で構築されたルーリックは、複数の利害の次元を評価する方法を記述する。
テキストを評価するために、大きな言語モデル(LLM)が各ルーブリック質問で促され、潜在的な応答に対する分布を生成する。
LLMの予測は、人間の判断とうまく一致しないことが多い。
しかしながら、複数の LLM ディストリビューションは $\textit{combined}$ to $\textit{predict}$ であり、全体的な品質や関連性を評価する要約質問を含む全ての質問に対する人間の裁判官のアノテーションである。
LLM-Rubricは、判断特化パラメータと判断非依存パラメータの両方を含む小さなフィードフォワードニューラルネットワークをトレーニングすることで、これを達成している。
人間のAI情報探索タスクにおける対話システムの評価において,9つの質問(自然性,簡潔性,引用品質などの次元の評価)を持つLLM-Rubricは,RMSエラーが0.5ドル,未解決ベースラインが2ドル,という尺度で,人間の判断による全体のユーザ満足度の評価を1~4スケールで予測する。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - HumanRankEval: Automatic Evaluation of LMs as Conversational Assistants [16.932009464531742]
本稿では,HumanRankEvalという新しい自動評価タスクを提案する。
大規模で多様で高品質な質問セットで構成されており、それぞれが人間によって書かれたいくつかの回答がある。
HREは人間の判断とよく相関し,特に指導指導後のモデル変化に応答することを示す。
論文 参考訳(メタデータ) (2024-05-15T08:47:26Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。