論文の概要: Criterion Validity of LLM-as-Judge for Business Outcomes in Conversational Commerce
- arxiv url: http://arxiv.org/abs/2604.00022v1
- Date: Wed, 11 Mar 2026 04:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.200899
- Title: Criterion Validity of LLM-as-Judge for Business Outcomes in Conversational Commerce
- Title(参考訳): 対話型商取引における LLM-as-Judge のビジネス成果の基準妥当性
- Authors: Liang Chen, Qi Liu, Wenhuan Lin, Feng Liang,
- Abstract要約: 対話型AIの評価には多次元対話評価が広く用いられている。
品質スコアが、彼らが提供しようとするダウンストリームの結果と結びついているかどうか、ほとんどテストされていないままです。
LLM-as-Judgeで実装した7次元評価ルーブリックを、検証されたビジネス変換に対して試験する。
- 参考スコア(独自算出の注目度): 10.670366057920205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-dimensional rubric-based dialogue evaluation is widely used to assess conversational AI, yet its criterion validity -- whether quality scores are associated with the downstream outcomes they are meant to serve -- remains largely untested. We address this gap through a two-phase study on a major Chinese matchmaking platform, testing a 7-dimension evaluation rubric (implemented via LLM-as-Judge) against verified business conversion. Our findings concern rubric design and weighting, not LLM scoring accuracy: any judge using the same rubric would face the same structural issue. The core finding is dimension-level heterogeneity: in Phase 2 (n=60 human conversations, stratified sample, verified labels), Need Elicitation (D1: rho=0.368, p=0.004) and Pacing Strategy (D3: rho=0.354, p=0.006) are significantly associated with conversion after Bonferroni correction, while Contextual Memory (D5: rho=0.018, n.s.) shows no detectable association. This heterogeneity causes the equal-weighted composite (rho=0.272) to underperform its best dimensions -- a composite dilution effect that conversion-informed reweighting partially corrects (rho=0.351). Logistic regression controlling for conversation length confirms D3's association strengthens (OR=3.18, p=0.006), ruling out a length confound. An initial pilot (n=14) mixing human and AI conversations had produced a misleading "evaluation-outcome paradox," which Phase 2 revealed as an agent-type confound artifact. Behavioral analysis of 130 conversations through a Trust-Funnel framework identifies a candidate mechanism: AI agents execute sales behaviors without building user trust. We operationalize these findings in a three-layer evaluation architecture and advocate criterion validity testing as standard practice in applied dialogue evaluation.
- Abstract(参考訳): 対話型AIを評価するために多次元ルーリックベースの対話評価が広く使用されているが、品質スコアが提供予定の下流結果と結びついているかどうかという基準的妥当性はほとんどテストされていない。
このギャップは、中国の大手マッチメイキングプラットフォームに関する2段階の研究を通じて解決され、7次元評価ルーリック(LLM-as-Judgeによる実装)を検証されたビジネス変換に対してテストする。
以上の結果から,LLMスコアの精度ではなく,ルーリック設計と重み付けについて検討した。
中心となる発見は次元レベルの不均一性である: フェーズ2(n=60人の会話、層状化サンプル、検証されたラベル)、必要緩和(D1: rho=0.368, p=0.004)、ペイシング戦略(D3: rho=0.354, p=0.006)はボンフェロニ補正後の変換と著しく関連し、コンテキスト記憶(D5: rho=0.018, n.s.)は検出可能な関連性を示す。
この不均一性により、等重量複合体(rho=0.272)はその最良次元を過小評価し、変換インフォームされた再重み付けを部分的に補正する複合希釈効果(rho=0.351)が生じる。
会話長のロジスティック回帰制御により、D3の関連性は強化され(OR=3.18, p=0.006)、長さの矛盾が排除される。
初期のパイロット(n=14)が人間とAIの会話を混ぜて「評価アウトカムパラドックス(evaluation-outcome paradox)」を作り、フェーズ2はエージェントタイプのコンファウンドアーティファクトとして明らかにした。
Trust-Funnelフレームワークによる130の会話の行動分析は、候補となるメカニズムを特定している。
本研究では,これらの知見を3層評価アーキテクチャで運用し,応用対話評価における基準基準妥当性試験を標準化する。
関連論文リスト
- DiscoUQ: Structured Disagreement Analysis for Uncertainty Quantification in LLM Agent Ensembles [5.647839536820347]
著者間の不一致構造を抽出し活用し,信頼度を良好に推定するフレームワークであるDiscoUQを紹介する。
DiscoUQ-LLM の平均 AUROC は 0.802 であり、最高のベースラインを上回っている。
学習した機能は、ほぼゼロに近いパフォーマンス劣化を伴うベンチマークで一般化される。
論文 参考訳(メタデータ) (2026-03-21T23:24:12Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing [16.419761149171215]
本稿では,大規模言語モデルを組み込んだ論理的基盤化フレームワークを提案する。
オブジェクト識別の時点では,対話状態は複数の並列世界へ複製される。
GPT-4o, Gemini-2.5-Flash, Qwen-3-235B を3つのインセンティブレベル(中性, 損失ベース, 存在)で評価した。
論文 参考訳(メタデータ) (2026-03-07T13:21:53Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - From Facts to Conclusions : Integrating Deductive Reasoning in Retrieval-Augmented LLMs [5.838119242443381]
本稿では,3段階にまたがる構造的,解釈可能な推論を付加する推論トレース拡張RAGフレームワークを提案する。
矛盾認識信頼スコア(CATS)パイプラインを導入し、基礎性、事実的正確性、拒絶精度、紛争行動アライメントを評価する。
論文 参考訳(メタデータ) (2025-12-18T17:27:51Z) - Retrieval-Augmented Guardrails for AI-Drafted Patient-Portal Messages: Error Taxonomy Construction and Large-Scale Evaluation [5.555479009357263]
EHRポータル経由の非同期患者・クリニックメッセージングは、クリニックのワークロードの増加源である。
1) 5つのドメインと59の粒度のエラーコードからなる臨床基礎的エラーオントロジーを導入し,(2)検索強化評価パイプラインを開発し,(3)拡張性,解釈性,階層的エラー検出を実現するためにDSPyを用いた2段階のプロンプトアーキテクチャを提供する。
論文 参考訳(メタデータ) (2025-09-26T16:42:43Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z) - CoCo: Controllable Counterfactuals for Evaluating Dialogue State
Trackers [92.5628632009802]
本稿では,このギャップを橋渡しし,新たなシナリオにおける対話状態追跡(DST)モデルを評価するための制御可能な対策(CoCo)を提案する。
CoCoは、2つのステップで新しい会話シナリオを生成する: (i) スロットをドロップして追加し、スロット値を置き換えて、 (ii) (i) で条件付きで対話フローと整合する対実会話生成。
人間による評価では、COCO生成された会話は95%以上の精度でユーザー目標を完璧に反映し、元の会話と同じくらい人間らしくなっている。
論文 参考訳(メタデータ) (2020-10-24T09:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。