論文の概要: HELM: A Human-Centered Evaluation Framework for LLM-Powered Recommender Systems
- arxiv url: http://arxiv.org/abs/2601.19197v1
- Date: Tue, 27 Jan 2026 04:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.180533
- Title: HELM: A Human-Centered Evaluation Framework for LLM-Powered Recommender Systems
- Title(参考訳): HELM: LLMを利用したレコメンダシステムのための人間中心評価フレームワーク
- Authors: Sushant Mehta,
- Abstract要約: 我々は、包括的な評価フレームワークであるフレームワーク(textbfHuman-centered textbfEvaluation for textbfLLM-powered recotextbfMmenders)を紹介する。
textitIntent Alignment, textitExplanation Quality, textitInteraction Naturalness, textitTrust & Transparency, textitFairness & Diversityの5つの人間中心のシステムを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Large Language Models (LLMs) into recommendation systems has introduced unprecedented capabilities for natural language understanding, explanation generation, and conversational interactions. However, existing evaluation methodologies focus predominantly on traditional accuracy metrics, failing to capture the multifaceted human-centered qualities that determine the real-world user experience. We introduce \framework{} (\textbf{H}uman-centered \textbf{E}valuation for \textbf{L}LM-powered reco\textbf{M}menders), a comprehensive evaluation framework that systematically assesses LLM-powered recommender systems across five human-centered dimensions: \textit{Intent Alignment}, \textit{Explanation Quality}, \textit{Interaction Naturalness}, \textit{Trust \& Transparency}, and \textit{Fairness \& Diversity}. Through extensive experiments involving three state-of-the-art LLM-based recommenders (GPT-4, LLaMA-3.1, and P5) across three domains (movies, books, and restaurants), and rigorous evaluation by 12 domain experts using 847 recommendation scenarios, we demonstrate that \framework{} reveals critical quality dimensions invisible to traditional metrics. Our results show that while GPT-4 achieves superior explanation quality (4.21/5.0) and interaction naturalness (4.35/5.0), it exhibits a significant popularity bias (Gini coefficient 0.73) compared to traditional collaborative filtering (0.58). We release \framework{} as an open-source toolkit to advance human-centered evaluation practices in the recommender systems community.
- Abstract(参考訳): 大規模言語モデル(LLM)のレコメンデーションシステムへの統合は、自然言語理解、説明生成、対話的相互作用のための前例のない機能を導入した。
しかし、既存の評価手法は主に従来の精度指標に重点を置いており、実世界のユーザー体験を決定する多面的人間中心の質を捉えていない。
そこで我々は, LLM を利用した推奨システムを, 5つの人間中心の次元にわたって体系的に評価する総合評価フレームワークである \framework{} (\textbf{H}uman-centered \textbf{E}valuation for \textbf{L}LM-powered reco\textbf{M}menders)を紹介した。
GPT-4、LLaMA-3.1、P5の3つのドメイン(ムーブメント、本、レストラン)にまたがる3つの最先端のLCMベースのレコメンデータ(GPT-4、LLaMA-3.1、P5)と847のレコメンデーションシナリオを用いた12のドメインエキスパートによる厳密な評価を含む広範な実験を通じて、従来のメトリクスには見えない重要な品質次元を明らかにすることを実証した。
その結果, GPT-4 は, 従来の協調フィルタリング (0.58) と比較して, 優れた説明品質 (4.21/5.0) と相互作用自然性 (4.35/5.0) が得られる一方で, 高い人気バイアス (Gini coefficient 0.73) を示した。
私たちは、推奨システムコミュニティで人間中心の評価プラクティスを進めるためのオープンソースのツールキットとして、‘framework{}’をリリースします。
関連論文リスト
- Catching UX Flaws in Code: Leveraging LLMs to Identify Usability Flaws at the Development Stage [0.0]
本稿では,大規模言語モデル (LLM) が開発段階において信頼性と一貫した評価を提供できるかどうかを検討する。
OpenAIのGPT-4oのパイプラインを用いて,サイトごとの3つの独立した評価で850以上の評価を作成した。
問題検出では、平均的なコーエンのカッパは0.50で、正確な一致は84%であった。
論文 参考訳(メタデータ) (2025-12-03T21:02:54Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Uncertainty-Aware Explainable Recommendation with Large Language Models [15.229417987212631]
GPT-2のプロンプトとしてユーザおよびアイテム入力のIDベクトルを利用するモデルを開発する。
マルチタスク学習フレームワークには,推薦タスクと説明タスクの両方を最適化するために,共同トレーニング機構が採用されている。
提案手法はYelp, TripAdvisor, Amazon のデータセット上でそれぞれ 1.59 DIV, 0.57 USR, 0.41 FCR を達成する。
論文 参考訳(メタデータ) (2024-01-31T14:06:26Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。