Fugu-MT 論文翻訳(概要): Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach

論文の概要: Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach

arxiv url: http://arxiv.org/abs/2602.22585v1
Date: Thu, 26 Feb 2026 03:35:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.513498
Title: Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach
Title（参考訳）: AI評価におけるレータ効果のためのヒューマンラベルの修正:項目応答理論のアプローチ
Authors: Jodi M. Casabianca, Maggie Beiting-Parrish,
Abstract要約: 本稿では,人間の判断による結論の信頼性と妥当性を向上させるため,心理測定レーダモデルをAIパイプラインに統合する。本研究では, レーダ重大度に対する調整が, 要約品質の補正された推定値をいかに生み出すかを示す。この視点は、AI開発と評価のためのより堅牢で解釈可能な、構成整合したプラクティスへの道のりを強調している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Human evaluations play a central role in training and assessing AI models, yet these data are rarely treated as measurements subject to systematic error. This paper integrates psychometric rater models into the AI pipeline to improve the reliability and validity of conclusions drawn from human judgments. The paper reviews common rater effects, severity and centrality, that distort observed ratings, and demonstrates how item response theory rater models, particularly the multi-faceted Rasch model, can separate true output quality from rater behavior. Using the OpenAI summarization dataset as an empirical example, we show how adjusting for rater severity produces corrected estimates of summary quality and provides diagnostic insight into rater performance. Incorporating psychometric modeling into human-in-the-loop evaluation offers more principled and transparent use of human data, enabling developers to make decisions based on adjusted scores rather than raw, error-prone ratings. This perspective highlights a path toward more robust, interpretable, and construct-aligned practices for AI development and evaluation.
Abstract（参考訳）: 人間の評価は、AIモデルのトレーニングと評価において中心的な役割を果たすが、これらのデータは、体系的なエラーの対象となる測定として扱われることは滅多にない。本稿では,人間の判断による結論の信頼性と妥当性を向上させるため,心理測定レーダモデルをAIパイプラインに統合する。本論文は, 評価を歪ませる一般的なレーダ効果, 重大度, 集中度を概説し, 項目応答理論のレーダモデル, 特に多面ラッシュモデルを用いて, 真の出力品質とレーダの挙動を分離する方法を実証する。実験的な例として,OpenAI要約データセットを用いて,レーダの重大度調整が要約品質の補正された推定値をいかに生み出すかを示し,レーダ性能の診断的洞察を提供する。ヒューマン・イン・ザ・ループ評価にサイコメトリック・モデリングを組み込むことで、より原理的で透過的な人間のデータの利用が可能になる。この視点は、AI開発と評価のためのより堅牢で解釈可能な、構成整合したプラクティスへの道のりを強調している。

関連論文リスト

Markovian ODE-guided scoring can assess the quality of offline reasoning traces in language models [16.178449605148995]
オフライン評価フレームワークであるMarODEを導入し、トレースの推論に品質スコアを割り当てる。その効果は、人中心の摂動と人間の判断を用いて評価される。大規模な評価では、MarODEは既存のベースラインを250%以上上回っている。
論文参考訳（メタデータ） (2026-03-02T08:09:33Z)
PhyCritic: Multimodal Critic Models for Physical AI [101.37916322714041]
我々は、2段階のRLVRパイプラインを通して物理AIに最適化されたマルチモーダル批評家モデルであるPhyCriticを紹介する。我々はPhyCriticがオープンソースベースラインよりも高いパフォーマンス向上を実現し、ポリシーモデルとして適用すれば、物理的に基礎付けられたタスクにおける知覚と推論をさらに改善できることを示す。
論文参考訳（メタデータ） (2026-02-11T18:35:39Z)
ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文参考訳（メタデータ） (2025-10-07T15:10:51Z)
Doubly-Robust LLM-as-a-Judge: Externally Valid Estimation with Imperfect Personas [31.16720541398267]
本稿では,評価サンプリングバイアスに対処するために,2倍のロバスト推定フレームワークを提案する。このアプローチの鍵となるのは、評価者が人間のレーダとして振る舞うように促すことによって生成される「ペルソナ」格付けを使用することです。提案手法は,aとaとaとaとaとaとaとaとaとaとaとaとaとaとaとaとaとaとaとととa
論文参考訳（メタデータ） (2025-09-26T21:42:51Z)
The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文参考訳（メタデータ） (2025-01-13T13:10:16Z)
Learning to Generate and Evaluate Fact-checking Explanations with Transformers [10.970249299147866]
XAI(Explainable Artificial Antelligence)の研究我々は,人間のアクセス可能な説明を生成することによって,意思決定を文脈化し,正当化するトランスフォーマーベースの事実チェックモデルを開発した。我々は人工知能(AI)による説明と人間の判断を一致させる必要性を強調した。
論文参考訳（メタデータ） (2024-10-21T06:22:51Z)
Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge [51.93909886542317]
一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
論文参考訳（メタデータ） (2024-10-03T03:08:29Z)
Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文参考訳（メタデータ） (2024-08-25T06:49:03Z)
Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文参考訳（メタデータ） (2024-07-05T09:26:40Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
It HAS to be Subjective: Human Annotator Simulation via Zero-shot Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-30T20:54:59Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。