論文の概要: Learning to Judge: LLMs Designing and Applying Evaluation Rubrics
- arxiv url: http://arxiv.org/abs/2602.08672v1
- Date: Mon, 09 Feb 2026 13:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.260663
- Title: Learning to Judge: LLMs Designing and Applying Evaluation Rubrics
- Title(参考訳): 判断への学習: LLM の設計と評価ルーブリックの適用
- Authors: Clemencia Siro, Pourya Aliannejadi, Mohammad Aliannejadi,
- Abstract要約: 大規模言語モデル (LLM) は、自然言語生成のための評価器としてますます使われている。
GER-Evalを導入し,LLMが独自の評価ルーブリックを設計および適用できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 18.936553687978087
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly used as evaluators for natural language generation, applying human-defined rubrics to assess system outputs. However, human rubrics are often static and misaligned with how models internally represent language quality. We introduce GER-Eval (Generating Evaluation Rubrics for Evaluation) to investigate whether LLMs can design and apply their own evaluation rubrics. We evaluate the semantic coherence and scoring reliability of LLM-defined criteria and their alignment with human criteria. LLMs reliably generate interpretable and task-aware evaluation dimensions and apply them consistently within models, but their scoring reliability degrades in factual and knowledge-intensive settings. Closed-source models such as GPT-4o achieve higher agreement and cross-model generalization than open-weight models such as Llama. Our findings position evaluation as a learned linguistic capability of LLMs, consistent within models but fragmented across them, and call for new methods that jointly model human and LLM evaluative language to improve reliability and interpretability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、システム出力を評価するために人間の定義したルーブリックを適用することで、自然言語生成のための評価器としてますます使われている。
しかしながら、人間のルーブリックはしばしば静的であり、モデルが言語品質を内部的にどのように表現するかと不一致である。
GER-Eval(Generating Evaluation Rubrics for Evaluation)を導入し,LLMが独自の評価ルーブリックを設計および適用できるかどうかを検討する。
我々は,LLM定義基準のセマンティック・コヒーレンスと評価信頼性と,そのヒト基準との整合性を評価する。
LLMは、解釈可能なタスク認識評価次元を確実に生成し、モデルに一貫して適用するが、その評価信頼性は現実的かつ知識集約的な設定で低下する。
GPT-4oのようなクローズドソースモデルは、Llamaのようなオープンウェイトモデルよりも高いコンセンサスとクロスモデル一般化を実現する。
本研究は, LLMの学習言語能力として評価を位置づけ, モデル内に一貫するが, 断片化され, 信頼性と解釈性を向上させるために, 人間とLLM評価言語を共同でモデル化する新たな手法が求められた。
関連論文リスト
- On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。
本研究では,LLMの生成能力と評価能力の関係について検討した。
モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:33:24Z) - Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - Evaluating book summaries from internal knowledge in Large Language Models: a cross-model and semantic consistency approach [0.0]
本研究では,大規模言語モデル(LLM)を用いて,包括的かつ正確な書籍要約を生成する能力について検討する。
これらのモデルが、確立された人間の解釈と一致した有意義な物語を合成できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-27T15:36:24Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models [47.545382591646565]
大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。
LLMは、悪意のあるユーザーがモデルに望ましくないテキストを生成するよう促す敵攻撃の影響を受けやすい。
本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-07T17:11:34Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。