論文の概要: Doubly-Robust LLM-as-a-Judge: Externally Valid Estimation with Imperfect Personas
- arxiv url: http://arxiv.org/abs/2509.22957v1
- Date: Fri, 26 Sep 2025 21:42:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.954065
- Title: Doubly-Robust LLM-as-a-Judge: Externally Valid Estimation with Imperfect Personas
- Title(参考訳): 二重破壊型LCM-as-a-Judge:不完全な人物による外部検証
- Authors: Luke Guerdan, Justin Whitehouse, Kimberly Truong, Kenneth Holstein, Zhiwei Steven Wu,
- Abstract要約: 本稿では,評価サンプリングバイアスに対処するために,2倍のロバスト推定フレームワークを提案する。
このアプローチの鍵となるのは、評価者が人間のレーダとして振る舞うように促すことによって生成される「ペルソナ」格付けを使用することです。
提案手法は,<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i><i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>a</i>と<i>と<i>と<i>a</i>
- 参考スコア(独自算出の注目度): 31.16720541398267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Generative AI (GenAI) systems see growing adoption, a key concern involves the external validity of evaluations, or the extent to which they generalize from lab-based to real-world deployment conditions. Threats to the external validity of GenAI evaluations arise when the source sample of human raters and system outputs used to obtain a system quality estimate differs from the target distribution at deployment time. In this work, we propose a doubly-robust estimation framework designed to address this evaluation sampling bias. Key to our approach is the use of "persona" ratings produced by prompting an LLM evaluator (i.e., an LLM-as-a-judge) to behave as a human rater with specific sociodemographic characteristics. Our doubly-robust framework combines these informative yet imperfect persona ratings with human ratings obtained under evaluation sampling bias to produce statistically valid system quality estimates. In particular, we show that our approach yields valid system quality estimates when either (i) a model trained to predict human ratings using persona ratings and source data observed under sampling bias, or (ii) a reweighting model that corrects for sampling bias is of sufficient quality. We validate our framework theoretically and via a novel Persona Simulation Framework (PSF) designed to systematically manipulate persona quality and the degree of evaluation sampling bias present in source data. Our work provides a principled foundation for combining imperfect persona ratings with human ratings observed under sampling bias to obtain valid system quality estimates.
- Abstract(参考訳): ジェネレーティブAI(GenAI)システムの採用が増加する中、重要な懸念事項は、評価の外部的妥当性、あるいは彼らがラボベースから現実のデプロイメント条件まで一般化する範囲である。
GenAI評価の外部的妥当性への脅威は、システム品質推定に使用されるヒトラッカーとシステムアウトプットのソースサンプルが、デプロイ時のターゲット分布と異なるときに生じる。
本研究では,この評価サンプリングバイアスに対処するために,2倍のロバスト推定フレームワークを提案する。
我々のアプローチの鍵となるのは、LLM評価者(LLM-as-a-judge)に特定の社会デマグラフィー特性を持つ人間レーダとして振舞うよう促す「ペルソナ」格付けを使うことである。
本手法は, 統計的に有効なシステム品質推定値を生成するために, これらの情報的かつ不完全な人格評価と, サンプリングバイアス下で得られた人格評価とを組み合わせる。
特に,本手法は,いずれかの場合に,有効なシステム品質推定値が得られることを示す。
一 サンプリングバイアス下で観察された人格評価及び情報源データを用いて人格評価を予測するよう訓練されたモデル
(II)サンプリングバイアスを補正する再重み付けモデルは十分な品質である。
提案手法を理論的かつ新しいペルソナシミュレーションフレームワーク (PSF) を用いて検証し, 情報源データ中のペルソナ品質と評価サンプリングバイアスの程度を体系的に操作する。
我々の研究は、不完全なペルソナ格付けと、サンプリングバイアス下で観察された人間の格付けを組み合わせ、有効なシステム品質評価を得るための原則的な基礎を提供する。
関連論文リスト
- Towards Robust Offline Evaluation: A Causal and Information Theoretic Framework for Debiasing Ranking Systems [6.540293515339111]
検索レベルシステムのオフライン評価は、高性能なモデルの開発に不可欠である。
本稿では,検索グレードシステムのオフライン評価を行うための新しいフレームワークを提案する。
本研究は,(1)オフライン評価バイアスに対処するための因果関係の定式化,(2)システムに依存しない脱バイアスフレームワーク,(3)有効性の実証的検証を含む。
論文 参考訳(メタデータ) (2025-04-04T23:52:57Z) - Regression for the Mean: Auto-Evaluation and Inference with Few Labels through Post-hoc Regression [4.813376208491175]
Prediction Powered Inference (PPI)フレームワークは、大量の擬似ラベル付きデータと、実際の高品質なラベルを持つ小さなサンプルの両方を活用する方法を提供する。
ラベル付きデータが不足すると、PPI++メソッドは古典的推論よりもさらにパフォーマンスが良くなる。
本稿では, 頑健な回帰器を用いたPPIに基づく2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-19T17:17:46Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。