論文の概要: Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach
- arxiv url: http://arxiv.org/abs/2602.22585v1
- Date: Thu, 26 Feb 2026 03:35:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.513498
- Title: Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach
- Title(参考訳): AI評価におけるレータ効果のためのヒューマンラベルの修正:項目応答理論のアプローチ
- Authors: Jodi M. Casabianca, Maggie Beiting-Parrish,
- Abstract要約: 本稿では,人間の判断による結論の信頼性と妥当性を向上させるため,心理測定レーダモデルをAIパイプラインに統合する。
本研究では, レーダ重大度に対する調整が, 要約品質の補正された推定値をいかに生み出すかを示す。
この視点は、AI開発と評価のためのより堅牢で解釈可能な、構成整合したプラクティスへの道のりを強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human evaluations play a central role in training and assessing AI models, yet these data are rarely treated as measurements subject to systematic error. This paper integrates psychometric rater models into the AI pipeline to improve the reliability and validity of conclusions drawn from human judgments. The paper reviews common rater effects, severity and centrality, that distort observed ratings, and demonstrates how item response theory rater models, particularly the multi-faceted Rasch model, can separate true output quality from rater behavior. Using the OpenAI summarization dataset as an empirical example, we show how adjusting for rater severity produces corrected estimates of summary quality and provides diagnostic insight into rater performance. Incorporating psychometric modeling into human-in-the-loop evaluation offers more principled and transparent use of human data, enabling developers to make decisions based on adjusted scores rather than raw, error-prone ratings. This perspective highlights a path toward more robust, interpretable, and construct-aligned practices for AI development and evaluation.
- Abstract(参考訳): 人間の評価は、AIモデルのトレーニングと評価において中心的な役割を果たすが、これらのデータは、体系的なエラーの対象となる測定として扱われることは滅多にない。
本稿では,人間の判断による結論の信頼性と妥当性を向上させるため,心理測定レーダモデルをAIパイプラインに統合する。
本論文は, 評価を歪ませる一般的なレーダ効果, 重大度, 集中度を概説し, 項目応答理論のレーダモデル, 特に多面ラッシュモデルを用いて, 真の出力品質とレーダの挙動を分離する方法を実証する。
実験的な例として,OpenAI要約データセットを用いて,レーダの重大度調整が要約品質の補正された推定値をいかに生み出すかを示し,レーダ性能の診断的洞察を提供する。
ヒューマン・イン・ザ・ループ評価にサイコメトリック・モデリングを組み込むことで、より原理的で透過的な人間のデータの利用が可能になる。
この視点は、AI開発と評価のためのより堅牢で解釈可能な、構成整合したプラクティスへの道のりを強調している。
関連論文リスト
- ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - Doubly-Robust LLM-as-a-Judge: Externally Valid Estimation with Imperfect Personas [31.16720541398267]
本稿では,評価サンプリングバイアスに対処するために,2倍のロバスト推定フレームワークを提案する。
このアプローチの鍵となるのは、評価者が人間のレーダとして振る舞うように促すことによって生成される「ペルソナ」格付けを使用することです。
提案手法は,<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i><i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>と<i>と<i>a</i>
論文 参考訳(メタデータ) (2025-09-26T21:42:51Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge [51.93909886542317]
一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。
まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。
現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-25T06:49:03Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - It HAS to be Subjective: Human Annotator Simulation via Zero-shot
Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。
人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。
本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T20:54:59Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。