論文の概要: Aggregate vs. Personalized Judges in Business Idea Evaluation: Evidence from Expert Disagreement
- arxiv url: http://arxiv.org/abs/2604.22517v1
- Date: Fri, 24 Apr 2026 12:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.459632
- Title: Aggregate vs. Personalized Judges in Business Idea Evaluation: Evidence from Expert Disagreement
- Title(参考訳): Aggregate vs. Personalized Judges in Business Idea Evaluation: Evidence from Expert Disagreement
- Authors: Wataru Hirota, Tomoki Taniguchi, Tomoko Ohkuma, Kosuke Takahashi, Takahiro Omi, Kosuke Arima, Takuto Asakura, Chung-Chi Chen, Tatsuya Ishigaki,
- Abstract要約: 分析では、微粒な順序のスコアについてかなりの専門家の意見の相違が示され、一方、合意は粗い選択の下で高い。
次に、ゼロショット判定器、混合評価器の履歴に規定された集計判定器、対象評価器のスコアリング履歴に規定されたパーソナライズされた判定器の3つの構成を比較した。
パーソナライズド・ジャッジは、次元やモデルサイズ全体にわたって、アグリゲーション・ジャッジよりも対応する評価者とより緊密に一致し、評価者合意はパーソナライズド・コンディショニング(パーソナライズド・コンディショニング)の下でのみ、判断生成推論の類似性と相関する。
- 参考スコア(独自算出の注目度): 4.814048071575166
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evaluating LLM-generated business ideas is often harder to scale than generating them. Unlike standard NLP benchmarks, business idea evaluation relies on multi-dimensional criteria such as feasibility, novelty, differentiation, user need, and market size, and expert judgments often disagree. This paper studies a methodological question raised by such disagreement: should an automatic judge approximate an aggregate consensus, or model evaluators individually? We introduce PBIG-DATA, a dataset of approximately 3,000 individual scores across 300 patent-grounded product ideas, provided by domain experts on six business-oriented dimensions: specificity, technical validity, innovativeness, competitive advantage, need validity, and market size. Analyses show substantial expert disagreement on fine-grained ordinal scores, while agreement is higher under coarse selection, suggesting structured heterogeneity rather than random noise. We then compare three judge configurations: a rubric-only zero-shot judge, an aggregate judge conditioned on mixed evaluator histories, and a personalized judge conditioned on the target evaluator's scoring history. Across dimensions and model sizes, personalized judges align more closely with the corresponding evaluator than aggregate judges, and evaluator agreement correlates with similarity of judge-generated reasoning only under personalized conditioning. These results indicate that pooled labels can be a fragile target in pluralistic evaluation settings and motivate evaluator-conditioned judge designs for business idea assessment.
- Abstract(参考訳): LLMの生成するビジネスアイデアを評価することは、生成するよりもスケールアップが難しい場合が多い。
標準的なNLPベンチマークとは異なり、ビジネスアイデア評価は実現可能性、ノベルティ、差別化、ユーザニーズ、市場規模といった多次元的な基準に依存しており、専門家による判断はしばしば一致しない。
本稿では,このような意見の相違によって提起された方法論的問題について考察する。自動判断は集合的コンセンサスを近似するか,あるいはモデル評価器を個別に近似すべきか?
PBIG-DATA(PBIG-DATA)は,特許を根拠とした300の製品アイデアに対して,ドメインの専門家が6つのビジネス指向のディメンション – 特異性,技術的妥当性,革新性,競争優位性,市場規模 – に対して,約3,000の個人スコアのデータセットである。
分析は微粒な順序のスコアについてかなりの専門家の意見の相違を示し、一方一致は粗い選択の下で高く、ランダムノイズよりも構造的不均一性を示している。
次に,3つの判定構成を比較した。ルーリックのみのゼロショット判定器,混合評価器の履歴を条件とした集計判定器,対象評価器のスコアリング履歴を条件としたパーソナライズされた判定器である。
パーソナライズド・ジャッジは、次元やモデルサイズ全体にわたって、アグリゲーション・ジャッジよりも対応する評価者とより緊密に一致し、評価者合意はパーソナライズド・コンディショニング(パーソナライズド・コンディショニング)の下でのみ、判断生成推論の類似性と相関する。
これらの結果から, プールラベルは多元的評価設定において脆弱なターゲットとなり, ビジネスアイデア評価のための評価者条件の判断設計を動機付ける可能性が示唆された。
関連論文リスト
- Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews [69.66583722746904]
私たちは、AIレビュアーを5次元にわたって評価する総合的な評価フレームワークであるBeyond Ratingを紹介します。
本稿では,専門家の不一致に対応するためのMax-Recall戦略を提案する。
提案したテキスト中心の指標は、特に弱みの議論のリコールであり、評価精度と強く相関している。
論文 参考訳(メタデータ) (2026-04-21T14:21:15Z) - Self-Preference Bias in Rubric-Based Evaluation of Large Language Models [24.994793163290737]
本研究は,ルーリック評価における自己参照バイアス(SPB)の最初の研究である。
評価基準が完全に客観的である場合でもSPBは持続することを示す。
この環境でSPBを駆動する要因を解析し、負のルーリック、極端なルーリックの長さ、緊急紹介のような主観的なトピックが特に影響を受けやすいことを発見した。
論文 参考訳(メタデータ) (2026-04-08T12:13:53Z) - CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation [6.3121191919394475]
この研究は、ベンチマークスコアの分散をシナリオ、生成、判断、残留コンポーネントに分割する分散分解を導入する。
この分析に基づいて, 審査員のシナリオへのラウンドロビンの割り当てであるCyclicJudgeが, 一定の審査-呼出予算の最適戦略であることを実証した。
論文 参考訳(メタデータ) (2026-03-02T13:46:32Z) - EigenBench: A Comparative Behavioral Measure of Value Alignment [0.28707625120094377]
EigenBenchは、言語モデルの値をベンチマークするためのブラックボックスメソッドである。
合理的な判断者が正しいラベルに同意できない主観的な特性を定量化するように設計されている。
GPQAベンチマークのモデルランキングを、客観的ラベルにアクセスすることなく復元することができる。
論文 参考訳(メタデータ) (2025-09-02T04:14:26Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings [36.449658676568234]
大規模言語モデル(LLM)-as-judgeパラダイムは、モデル出力の安価で信頼性の高い高速な評価要求を満たすために使われてきた。
実世界の文脈評価シナリオにインスパイアされた8つの分割に対して2,000の挑戦的な応答対を持つ判定ベンチマークであるContextualJudgeBenchを提案する。
我々の総合的研究は、文脈情報とその評価基準が最先端モデルにおいても重要な課題であることを示している。
論文 参考訳(メタデータ) (2025-03-19T18:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。