論文の概要: How Many Human Judgments Are Enough? Feasibility Limits of Human Preference Evaluation
- arxiv url: http://arxiv.org/abs/2601.09084v2
- Date: Thu, 15 Jan 2026 03:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 13:33:41.419425
- Title: How Many Human Judgments Are Enough? Feasibility Limits of Human Preference Evaluation
- Title(参考訳): 人的判断が多すぎるか? 人的嗜好評価の可能性
- Authors: Wilson Y. Lee,
- Abstract要約: 優先信号がプロンプト間で拡散している場合、比例アロケーションは最小値最適であることを示す。
以上の結果から,非決定的あるいは否定的な評価結果が,モデル等価性よりも低パワー評価を反映していることが示唆された。
- 参考スコア(独自算出の注目度): 0.38991526486631006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human preference evaluations are widely used to compare generative models, yet it remains unclear how many judgments are required to reliably detect small improvements. We show that when preference signal is diffuse across prompts (i.e., all prompt types are similarly informative), proportional allocation is minimax-optimal: no allocation strategy substantially improves detectability. Empirical analysis of large-scale human preference datasets shows that most comparisons fall into this diffuse regime, exhibiting small preference margins that require far more judgments than typically collected, even in well-sampled comparisons. These limits persist across evaluation protocols and modalities, including chat, image generation, and code generation with execution feedback. In contrast, curated benchmarks that reduce prompt induced variability systematically induce larger margins and improve detectability through a $1.5\times$ reduction in prompt-level variance. Our results show that inconclusive or negative human evaluation outcomes frequently reflect underpowered evaluation rather than model equivalence, underscoring the need to account explicitly for effect size, budget, and protocol design.
- Abstract(参考訳): ヒトの嗜好評価は、生成モデルの比較に広く用いられているが、小さな改善を確実に検出するためにどのくらいの判断が必要かは定かではない。
優先信号がプロンプト間で拡散している場合(すなわち、すべてのプロンプト型が同様に情報的である)、比例割り当ては最小値最適である。
大規模な人間の嗜好データセットの実証分析は、ほとんどの比較が拡散状態に陥り、よくサンプリングされた比較においても、通常よりもはるかに多くの判断を必要とする小さな選好マージンが示されることを示している。
これらの制限は、チャット、画像生成、実行フィードバックによるコード生成など、評価プロトコルとモダリティにまたがって持続する。
対照的に、急激な誘導的変動を減少させるキュレートされたベンチマークは、系統的により大きなマージンを誘導し、プロンプトレベルのばらつきを減少させる$1.5\times$で検出性を向上させる。
以上の結果から,非決定的あるいは否定的な評価結果は,モデル等価性よりも低パワーな評価を反映し,効果サイズ,予算,プロトコル設計を明示的に考慮する必要があることが示唆された。
関連論文リスト
- Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics [25.374192139098284]
マルチモーダル評価において,システム障害モードとしての原形質バイアスについて検討する。
我々は、動物、オブジェクト、デモグラフィー画像にまたがる対照ベンチマークProtoBiasを導入する。
以上の結果から,CLIPScore,PickScore,VQAベースのスコアなど,広く使用されているメトリクスが,これらのペアを誤用していることが判明した。
本稿では, 故障率を大幅に低減し, 誤判定を抑える, 頑健な7BパラメータであるProtoScoreを提案する。
論文 参考訳(メタデータ) (2026-01-08T13:49:14Z) - Practical Improvements of A/B Testing with Off-Policy Estimation [51.25970890274447]
従来の手法よりも分散度を低くする非バイアスのオフ・ポリティクス推定器のファミリーを導入する。
提案手法の有効性と実用性を理論的に検証した。
論文 参考訳(メタデータ) (2025-06-12T13:11:01Z) - PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models [1.6816171955882597]
PMPOはマスキングに基づく分析を通じて低品質のプロンプトセグメントを特定し、反復的にそれらを書き換えて改良された変種を提案する。
単一のフォワードパスにおける損失を最小限に抑え、出力のサンプリングを排除し、選択のための人または判断に基づくスコアをなくし、変種の中から選択する。
PMPOは、BBHで最高平均精度を達成し、GSM8KとAQUA RATに強く依存し、AlpacaEval 2.0の勝利率を19ポイント以上上げる。
論文 参考訳(メタデータ) (2025-05-22T06:59:10Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Crowdsourcing subjective annotations using pairwise comparisons reduces
bias and error compared to the majority-vote method [0.0]
本稿では,ランダムな誤差と測定バイアスが,主観的構成物のクラウドソースアノテーションにどのように入るかを理解するための理論的枠組みを提案する。
次に、Eloスコアとペア比較ラベリングを組み合わせたパイプラインを提案し、両種類の測定誤差を低減するために、ユビキタスな多数投票法より優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T17:14:12Z) - Few-shot Forgery Detection via Guided Adversarial Interpolation [56.59499187594308]
既存の偽造検出手法は、見知らぬ新しい偽造手法に適用した場合、大幅な性能低下に悩まされる。
本稿では,数発の偽造検出問題を克服するために,GAI(Guid Adversarial Interpolation)を提案する。
我々の手法は、多数派と少数派の偽造アプローチの選択に対して堅牢であることが検証されている。
論文 参考訳(メタデータ) (2022-04-12T16:05:10Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z) - Active Sampling for Pairwise Comparisons via Approximate Message Passing
and Information Gain Maximization [5.771869590520189]
本稿では、近似メッセージパッシングと期待情報ゲインに基づくアクティブサンプリングアルゴリズムASAPを提案する。
既存の手法と比較して,ASAPは推定スコアの精度が最も高いことを示す。
論文 参考訳(メタデータ) (2020-04-12T20:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。