論文の概要: On the Reliability of User-Centric Evaluation of Conversational Recommender Systems
- arxiv url: http://arxiv.org/abs/2602.17264v1
- Date: Thu, 19 Feb 2026 11:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.932097
- Title: On the Reliability of User-Centric Evaluation of Conversational Recommender Systems
- Title(参考訳): 会話レコメンダシステムのユーザ中心評価の信頼性について
- Authors: Michael Müller, Amir Reza Mohammadi, Andreas Peintner, Beatriz Barroso Gstrein, Günther Specht, Eva Zangerle,
- Abstract要約: 本研究では,静的な対話書き起こしにおけるユーザ中心のCRS評価の信頼性について,大規模な実証的研究を行った。
我々は18次元CRS-Queフレームワークを用いて,200のReDial対話において124人のクラウドワーカーから1,053のアノテーションを収集した。
以上の結果から, 精度, 有用性, 満足度といった実用的, 成果志向の次元は, 凝集下での信頼性が適度であることが示唆された。
多くの次元が単一のグローバルな品質信号に崩壊し、サードパーティの判断に強いハロ効果が現れる。
- 参考スコア(独自算出の注目度): 0.9112926574395824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User-centric evaluation has become a key paradigm for assessing Conversational Recommender Systems (CRS), aiming to capture subjective qualities such as satisfaction, trust, and rapport. To enable scalable evaluation, recent work increasingly relies on third-party annotations of static dialogue logs by crowd workers or large language models. However, the reliability of this practice remains largely unexamined. In this paper, we present a large-scale empirical study investigating the reliability and structure of user-centric CRS evaluation on static dialogue transcripts. We collected 1,053 annotations from 124 crowd workers on 200 ReDial dialogues using the 18-dimensional CRS-Que framework. Using random-effects reliability models and correlation analysis, we quantify the stability of individual dimensions and their interdependencies. Our results show that utilitarian and outcome-oriented dimensions such as accuracy, usefulness, and satisfaction achieve moderate reliability under aggregation, whereas socially grounded constructs such as humanness and rapport are substantially less reliable. Furthermore, many dimensions collapse into a single global quality signal, revealing a strong halo effect in third-party judgments. These findings challenge the validity of single-annotator and LLM-based evaluation protocols and motivate the need for multi-rater aggregation and dimension reduction in offline CRS evaluation.
- Abstract(参考訳): ユーザ中心評価は、満足度、信頼度、ラップポートといった主観的な品質を捉えることを目的として、会話レコメンダシステム(CRS)を評価するための重要なパラダイムとなっている。
スケーラブルな評価を可能にするため、最近の研究は、群衆労働者や大規模言語モデルによる静的対話ログのサードパーティアノテーションにますます依存している。
しかし、この慣行の信頼性はほとんど検討されていない。
本稿では,静的な対話書き起こしにおけるユーザ中心のCRS評価の信頼性と構造について,大規模な実証的研究を行う。
我々は18次元CRS-Queフレームワークを用いて,200のReDial対話において124人のクラウドワーカーから1,053のアノテーションを収集した。
確率効果信頼性モデルと相関解析を用いて,各次元の安定性とその相互依存性を定量化する。
以上の結果から, 精度, 有用性, 満足度などの実用的, 成果志向の次元は, 凝集下での適度な信頼性を実現する一方で, 人格やラップポートなどの社会的基盤構造は, 信頼性が著しく低いことが示唆された。
さらに、多くの次元が単一のグローバルな品質信号に崩壊し、サードパーティの判断に強いハロ効果が現れる。
これらの結果は,単一アノテータとLCMに基づく評価プロトコルの有効性に挑戦し,オフラインCRS評価におけるマルチラター集約と次元縮小の必要性を動機づけるものである。
関連論文リスト
- Confidence Estimation for LLMs in Multi-turn Interactions [48.081802290688394]
この研究は、マルチターン相互作用における信頼度推定に関する最初の体系的研究である。
そこで我々は,2つの主要なデシラタに基礎を置く形式的評価枠組みを構築した。
我々の研究は、より信頼性が高く信頼性の高い会話エージェントを開発するための基礎的な方法論を提供する。
論文 参考訳(メタデータ) (2026-01-05T14:58:04Z) - When Can We Trust LLMs in Mental Health? Large-Scale Benchmarks for Reliable LLM Evaluation [14.24379104658635]
MentalBench-100kは、3つの実際のシナリオデータセットから1万のワンターン会話を統合する。
MentalBench-70kreframes の評価は,7つの属性に対する70,000のレーティングに対して,ハイパフォーマンスな4人の LLM 審査員と人間専門家を比較した。
分析の結果,LLM審査員による体系的なインフレーション,ガイダンスや情報性などの認知特性の信頼性,共感の精度の低下,安全性と妥当性の信頼性の低下が明らかになった。
論文 参考訳(メタデータ) (2025-10-21T19:21:21Z) - Limitations of Current Evaluation Practices for Conversational Recommender Systems and the Potential of User Simulation [19.14733504795247]
本稿では,会話レコメンデーションシステム(CRS)の現在の評価実践について批判的に検討する。
静的テストコレクションへの過度な依存と,既存の評価指標の不十分という,2つの重要な制限を特定します。
本稿では,実際のユーザ満足度に適合するように設計された,一般的な報酬/コストフレームワークに基づく新しい評価指標を提案する。
論文 参考訳(メタデータ) (2025-10-07T07:12:47Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Structured Relevance Assessment for Robust Retrieval-Augmented Language Models [0.0]
本稿では,ALMのロバスト性を高める構造的妥当性評価フレームワークを提案する。
提案手法では,セマンティックマッチングとソース信頼性の両方を考慮した多次元スコアリングシステムを採用している。
予備評価では、幻覚率の大幅な低下と推論過程の透明性の向上が示されている。
論文 参考訳(メタデータ) (2025-07-28T19:20:04Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。