論文の概要: Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals
- arxiv url: http://arxiv.org/abs/2605.12422v1
- Date: Tue, 12 May 2026 17:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.046717
- Title: Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals
- Title(参考訳): LLM-as-a-Judge 障害評価における世代間確率信号を用いずにヒトのレーダによる診断予測
- Authors: Yo Ehara,
- Abstract要約: 本研究では,評価の難易度を評価対象者と一致しない確率で予測する手法を提案する。
従来の手法とは異なり、本手法は生成時確率信号に依存しない。
GPT-OSS-120B と Qwen3-235B-A22B を用いた英語CEFR を用いた文難読度評価実験により,提案手法は,確率ベースベースラインよりも高いAUCを達成できた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic generation of educational materials using large language models (LLMs) is becoming increasingly common, but assigning difficulty levels to such materials still requires substantial human effort. LLM-as-a-Judge has therefore attracted attention, yet disagreement with human raters remains a major challenge. We propose a method for predicting which LLM-generated difficulty ratings are likely to disagree with human raters, so that such cases can be sent for re-rating. Unlike prior approaches, our method does not rely on generation-time probability signals, which must be collected during rating generation and are often difficult to compare across LLMs. Instead, exploiting the fact that difficulty is an ordinal scale, we use a separate embedding space, such as ModernBERT, and identify disagreement candidates based on the geometric consistency of the rating set. Experiments on English CEFR-based sentence difficulty assessment with GPT-OSS-120B and Qwen3-235B-A22B showed that the proposed method achieved higher AUC for predicting disagreement with human raters than probability-based baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた教材の自動生成はますます一般的になりつつあるが、そのような教材に難易度を割り当てるには依然としてかなりの努力が必要である。
そのため、LSM-as-a-Judgeは注目されているが、人間のレイカーとの意見の相違は大きな課題である。
そこで本研究では, LLMによる難易度評価がヒトのレイカーと相違する可能性が低いことを予測し, 再評価のためにこのような事例を送付する手法を提案する。
従来の手法とは異なり,本手法では,レーティング生成時に収集する必要がある生成時確率信号に頼らず,LLM間の比較が難しい場合が多い。
代わりに、難易度が順序尺度であるという事実を利用して、ModernBERTのような別の埋め込み空間を使用し、評価集合の幾何学的整合性に基づいて不一致候補を識別する。
GPT-OSS-120B と Qwen3-235B-A22B を用いた英語CEFR を用いた文難読度評価実験により,提案手法は,確率ベースベースラインよりも高いAUCを達成できた。
関連論文リスト
- RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。
複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-12T21:28:46Z) - Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms [0.0]
フィールドテストによるアイテムの難易度の推定は、しばしばリソース集約的で時間を要する。
本研究は,大言語モデル(LLM)を用いて,K-5数学および読解評価項目の項目難易度を予測することの実現可能性について検討する。
論文 参考訳(メタデータ) (2025-04-09T00:04:07Z) - Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。
コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。
このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。
我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文 参考訳(メタデータ) (2025-03-17T16:15:02Z) - Is my Meeting Summary Good? Estimating Quality with a Multi-LLM Evaluator [6.532478490187084]
MESAは、個々のエラータイプを3段階評価し、意思決定の洗練のためのマルチエージェント議論と、エラー定義の理解と人間の判断との整合性を洗練するためのフィードバックベースの自己学習を取り入れている。
GPT-4oを背骨として、MESAは、エラー検出における人間の判断と、要約品質に対するエラーの影響を反映するミッドスパイアマンとケンドールの相関を、平均0.25以上の方法で達成する。
論文 参考訳(メタデータ) (2024-11-27T15:35:32Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [38.822535662755314]
大規模言語モデル(LLM)のためのサンプル効率のよい人的評価手法を提案する。
提案手法は,LLM応答のペア間のセマンティックな差異を最大化する,コンパクトな入力命令セットを自動的に適応的に選択する。
人間の評価者は、これらのペア化された反応に対して3つの代替的な選択を行い、エロ評価を用いてグローバルなランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - RICA: Evaluating Robust Inference Capabilities Based on Commonsense
Axioms [41.82685006832153]
我々は,Commonsense Axiomsに基づくロバスト推論機能であるRICAを提案する。
我々は,コモンセンス知識ベースを用いて,この課題のためのデータを生成し,2つの異なる評価設定でPTLMを探索する。
実験により、PTLMはゼロショット設定でのランダムな推測に勝らず、統計的バイアスに大きく影響し、摂動攻撃に対して堅牢ではないことが示された。
論文 参考訳(メタデータ) (2020-05-02T10:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。