論文の概要: Toward Holistic Evaluation of Recommender Systems Powered by Generative Models
- arxiv url: http://arxiv.org/abs/2504.06667v1
- Date: Wed, 09 Apr 2025 08:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 20:39:57.232985
- Title: Toward Holistic Evaluation of Recommender Systems Powered by Generative Models
- Title(参考訳): 生成モデルによるレコメンダシステムの全体的評価に向けて
- Authors: Yashar Deldjoo, Nikhil Mehta, Maheswaran Sathiamoorthy, Shuai Zhang, Pablo Castells, Julian McAuley,
- Abstract要約: 生成モデル(Gen-RecSys)はオープンなコンテンツを生成する。
従来の精度測定では、事実の正確性、コンテンツの安全性、ユーザ意図との整合性を計測できません。
本稿では,シナリオベースの評価とマルチメトリックチェックの関連性を含む総合評価手法を提案する。
- 参考スコア(独自算出の注目度): 29.797042093096277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recommender systems powered by generative models (Gen-RecSys) extend beyond classical item ranking by producing open-ended content, which simultaneously unlocks richer user experiences and introduces new risks. On one hand, these systems can enhance personalization and appeal through dynamic explanations and multi-turn dialogues. On the other hand, they might venture into unknown territory-hallucinating nonexistent items, amplifying bias, or leaking private information. Traditional accuracy metrics cannot fully capture these challenges, as they fail to measure factual correctness, content safety, or alignment with user intent. This paper makes two main contributions. First, we categorize the evaluation challenges of Gen-RecSys into two groups: (i) existing concerns that are exacerbated by generative outputs (e.g., bias, privacy) and (ii) entirely new risks (e.g., item hallucinations, contradictory explanations). Second, we propose a holistic evaluation approach that includes scenario-based assessments and multi-metric checks-incorporating relevance, factual grounding, bias detection, and policy compliance. Our goal is to provide a guiding framework so researchers and practitioners can thoroughly assess Gen-RecSys, ensuring effective personalization and responsible deployment.
- Abstract(参考訳): 生成モデル(Gen-RecSys)を利用したレコメンダシステムは、オープンエンドコンテンツを作成することによって、古典的なアイテムランキングを超えて、リッチなユーザエクスペリエンスを同時に解放し、新たなリスクをもたらす。
一方、これらのシステムは、動的説明やマルチターン対話を通じてパーソナライズと魅力を高めることができる。
一方、彼らは未知の領域を埋め尽くしたり、偏見を増幅したり、個人情報を漏らしたりするかもしれない。
従来の精度測定では、事実の正確性、コンテンツの安全性、ユーザ意図との整合性などの測定に失敗するため、これらの課題を完全に把握することはできない。
本論文の主な貢献は2つある。
まず、Gen-RecSysの評価課題を2つのグループに分類する。
一 生成出力(例えば、バイアス、プライバシー)によって悪化する既存の関心事及び
(二)全く新しいリスク(例:幻覚、矛盾する説明)
第2に,シナリオベース評価とマルチメトリックチェックを取り入れた総合評価手法を提案する。
我々のゴールは、研究者や実践者がGen-RecSysを徹底的に評価し、効果的なパーソナライゼーションと責任あるデプロイメントを保証するためのガイドフレームワークを提供することです。
関連論文リスト
- Epistemic Uncertainty-aware Recommendation Systems via Bayesian Deep Ensemble Learning [2.3310092106321365]
より堅牢で信頼性の高い予測を生成するために,アンサンブルに基づくスーパーモデルを提案する。
また,ユーザとアイテムの埋め込みに対して,解釈可能な非線形マッチング手法を導入する。
論文 参考訳(メタデータ) (2025-04-14T23:04:35Z) - Towards Robust Offline Evaluation: A Causal and Information Theoretic Framework for Debiasing Ranking Systems [6.540293515339111]
検索レベルシステムのオフライン評価は、高性能なモデルの開発に不可欠である。
本稿では,検索グレードシステムのオフライン評価を行うための新しいフレームワークを提案する。
本研究は,(1)オフライン評価バイアスに対処するための因果関係の定式化,(2)システムに依存しない脱バイアスフレームワーク,(3)有効性の実証的検証を含む。
論文 参考訳(メタデータ) (2025-04-04T23:52:57Z) - Re-evaluating Open-ended Evaluation of Large Language Models [50.23008729038318]
現在のEloベースのレーティングシステムは、データ、意図的、あるいは偶発的なバイアスの影響を受けやすく、さらに強化できることを示している。
本稿では,3人プレイヤゲームとしての評価を提案し,冗長性に対するロバスト性を確保するために,ゲーム理論の新たな概念を導入する。
論文 参考訳(メタデータ) (2025-02-27T15:07:47Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.50078821423793]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Debiasing Recommendation by Learning Identifiable Latent Confounders [49.16119112336605]
コンバウンディングバイアスは、ユーザの露出とフィードバックの両方に影響を与える未測定変数の存在によって生じる。
既存の手法では,(1) 未測定変数について不確定な仮定を行うか,(2) 潜伏した共同創設者を直接ユーザの露出から推測する。
本稿では、上記の非識別問題の解決にプロキシ変数の集合を利用する新しい方法、すなわち、識別可能なデコノウ(iDCF)を提案する。
論文 参考訳(メタデータ) (2023-02-10T05:10:26Z) - Joint Multisided Exposure Fairness for Recommendation [76.75990595228666]
本稿では,消費者と生産者の両面から共同で問題をモデル化する,露出公正度尺度のファミリを定式化する。
具体的には、双方の利害関係者に対するグループ属性について、個別のユーザや項目を超えて、より体系的なバイアスを推奨するフェアネスの懸念を識別し緩和する。
論文 参考訳(メタデータ) (2022-04-29T19:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。