論文の概要: Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2508.08777v1
- Date: Tue, 12 Aug 2025 09:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.364297
- Title: Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge
- Title(参考訳): プロファイル対応LCM-as-a-Judgeによるポッドキャスト推薦の評価
- Authors: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas,
- Abstract要約: 本稿では,ポッドキャスト推薦の質を評価するために,Large Language Models (LLMs) をオフライン裁判官として活用する新しいフレームワークを提案する。
まず,90日間の聴取履歴から抽出した自然言語のユーザプロファイルを構築した。
47名の被験者を対象にした対照研究において, プロファイル・アウェア・ジャッジは, 人間の判断に高い忠実度で一致し, 生聴取履歴を用いた変種よりも優れ, あるいは優れていた。
- 参考スコア(独自算出の注目度): 8.554894195710204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating personalized recommendations remains a central challenge, especially in long-form audio domains like podcasts, where traditional offline metrics suffer from exposure bias and online methods such as A/B testing are costly and operationally constrained. In this paper, we propose a novel framework that leverages Large Language Models (LLMs) as offline judges to assess the quality of podcast recommendations in a scalable and interpretable manner. Our two-stage profile-aware approach first constructs natural-language user profiles distilled from 90 days of listening history. These profiles summarize both topical interests and behavioral patterns, serving as compact, interpretable representations of user preferences. Rather than prompting the LLM with raw data, we use these profiles to provide high-level, semantically rich context-enabling the LLM to reason more effectively about alignment between a user's interests and recommended episodes. This reduces input complexity and improves interpretability. The LLM is then prompted to deliver fine-grained pointwise and pairwise judgments based on the profile-episode match. In a controlled study with 47 participants, our profile-aware judge matched human judgments with high fidelity and outperformed or matched a variant using raw listening histories. The framework enables efficient, profile-aware evaluation for iterative testing and model selection in recommender systems.
- Abstract(参考訳): パーソナライズされたレコメンデーションを評価することは、特にポッドキャストのような長めのオーディオドメインでは、従来のオフラインメトリクスが露出バイアスに悩まされ、A/Bテストのようなオンラインメソッドはコストと運用上の制約を受けています。
本稿では,大規模言語モデル(LLM)をオフラインの審査員として活用し,スケーラブルで解釈可能な方法でポッドキャストレコメンデーションの品質を評価する新しいフレームワークを提案する。
まず,90日間の聴取履歴から抽出した自然言語のユーザプロファイルを構築した。
これらのプロファイルは、トピックの興味と行動パターンの両方を要約し、コンパクトで解釈可能なユーザー好みの表現として機能する。
生データでLLMを推し進めるのではなく、これらのプロファイルを使用して、LLMを高レベルで意味的にリッチなコンテキスト呼び出しを行い、ユーザの興味と推奨エピソードとの整合性についてより効果的に推論する。
これにより、入力の複雑さを減らし、解釈可能性を向上させる。
LLMは、プロファイル・エピソードマッチングに基づいて、細粒度でペアワイズな判断を行うように促される。
47名の被験者を対象にした対照研究において, プロファイル・アウェア・ジャッジは, 人間の判断に高い忠実度で一致し, 生聴取履歴を用いた変種よりも優れ, あるいは優れていた。
このフレームワークは、リコメンデータシステムにおける反復テストとモデル選択の効率的かつプロファイル対応な評価を可能にする。
関連論文リスト
- Biases in LLM-Generated Musical Taste Profiles for Recommendation [6.482557558168364]
推奨のための大規模言語モデル(LLM)は、消費データから自然言語(NL)のユーザ嗜好プロファイルを生成することができる。
しかし、ユーザーがこれらのプロフィールを自分の好みを正確に表現しているかどうかは不明だ。
本研究では、音楽ストリーミングの文脈でこの問題について研究し、大規模で文化的に多様なカタログによってパーソナライズに挑戦する。
論文 参考訳(メタデータ) (2025-07-22T15:44:10Z) - Towards Explainable Temporal User Profiling with LLMs [3.719862246745416]
我々は,大規模言語モデル(LLM)を利用して,ユーザのインタラクション履歴の自然言語要約を生成する。
我々のフレームワークは、時間的ユーザの好みをモデル化するだけでなく、解釈可能な方法でレコメンデーションを説明するために使える自然言語プロファイルも生成する。
論文 参考訳(メタデータ) (2025-05-01T22:02:46Z) - RecSys Arena: Pair-wise Recommender System Evaluation with Large Language Models [40.74293642666989]
提案するRecSys Arenaでは,2種類のレコメンデーションシステムによるレコメンデーション結果がLLM審査員によって評価され,きめ細かい評価フィードバックが得られる。
我々は多くの異なるLCMが標準オフラインメトリクスと高度に一致した一般的な評価結果を提供することを示した。
AUCやnDCGと同等の性能の異なるアルゴリズムを区別できる。
論文 参考訳(メタデータ) (2024-12-15T05:57:36Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Recommendations by Concise User Profiles from Review Text [24.408292545170944]
この研究は、非常に疎いインタラクションを持つユーザの難解かつ過小評価されたケースに対処する。
LLMを通して全てのレビューの全文をフィードすることは、信号とノイズの比が弱く、処理されたトークンのコストが高くなる。
このフレームワークは、まず簡潔なユーザプロファイルを計算し、これらのみをトランスフォーマーベースのレコメンデータのトレーニングに投入する。
論文 参考訳(メタデータ) (2023-11-02T15:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。