論文の概要: Music Recommendation with Large Language Models: Challenges, Opportunities, and Evaluation
- arxiv url: http://arxiv.org/abs/2511.16478v1
- Date: Thu, 20 Nov 2025 15:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.705301
- Title: Music Recommendation with Large Language Models: Challenges, Opportunities, and Evaluation
- Title(参考訳): 大規模言語モデルを用いた音楽レコメンデーション:課題,機会,評価
- Authors: Elena V. Epure, Yashar Deldjoo, Bruno Sguerra, Markus Schedl, Manuel Moussallam,
- Abstract要約: Music Recommender Systems (MRS) は長年、情報検索のフレーミングに依存してきた。
LLM(Large Language Models)の出現は、このフレームワークを混乱させます。
LLMはランキングベースではなく生成的であり、標準精度のメトリクスを疑問視する。
- 参考スコア(独自算出の注目度): 14.210401534321806
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Music Recommender Systems (MRS) have long relied on an information-retrieval framing, where progress is measured mainly through accuracy on retrieval-oriented subtasks. While effective, this reductionist paradigm struggles to address the deeper question of what makes a good recommendation, and attempts to broaden evaluation, through user studies or fairness analyses, have had limited impact. The emergence of Large Language Models (LLMs) disrupts this framework: LLMs are generative rather than ranking-based, making standard accuracy metrics questionable. They also introduce challenges such as hallucinations, knowledge cutoffs, non-determinism, and opaque training data, rendering traditional train/test protocols difficult to interpret. At the same time, LLMs create new opportunities, enabling natural-language interaction and even allowing models to act as evaluators. This work argues that the shift toward LLM-driven MRS requires rethinking evaluation. We first review how LLMs reshape user modeling, item modeling, and natural-language recommendation in music. We then examine evaluation practices from NLP, highlighting methodologies and open challenges relevant to MRS. Finally, we synthesize insights-focusing on how LLM prompting applies to MRS, to outline a structured set of success and risk dimensions. Our goal is to provide the MRS community with an updated, pedagogical, and cross-disciplinary perspective on evaluation.
- Abstract(参考訳): Music Recommender Systems (MRS) は長年、情報検索のフレーミングに依存してきた。
効果はあるものの、この還元主義のパラダイムは、何が良いレコメンデーションをもたらすのかというより深い疑問に対処するのに苦労し、ユーザスタディや公正分析を通じて評価を広げようとする試みは、影響を限定している。
大規模言語モデル(LLM)の出現は、このフレームワークを混乱させる: LLMはランキングベースではなく生成的であり、標準精度のメトリクスを疑問視する。
また、幻覚、知識の遮断、非決定主義、不透明なトレーニングデータといった課題を導入し、従来のトレイン/テストプロトコルの解釈を困難にしている。
同時に、LLMは新たな機会を生み出し、自然言語による対話を可能にし、モデルが評価者として振る舞うことを可能にする。
この研究は、LSM駆動型MSSへの移行には再考が必要であると主張している。
まず,LLMが音楽におけるユーザモデリング,アイテムモデリング,自然言語レコメンデーションをどのように作り直すかを検討する。
次に、NLPによる評価の実践、MDSに関する方法論の強調、オープン課題について検討し、最後に、LSMがMSSにどのように適用されるかについての洞察を合成し、成功度とリスク次元の構造化されたセットを概説する。
我々のゴールは、MSSコミュニティに、評価に関する更新された、教育的な、学際的な視点を提供することです。
関連論文リスト
- A Survey on Unlearning in Large Language Models [18.262778815699345]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、大規模なコーパスでのトレーニングは重大なリスクをもたらす。
これらの問題を緩和し、「忘れられる権利」のような法的・倫理的な基準に合わせるために、機械の非学習は重要なテクニックとして現れてきた。
この調査は、2021年以降に出版されたLLMアンラーニングに関する180以上の論文の体系的なレビューを提供する。
論文 参考訳(メタデータ) (2025-10-29T02:34:17Z) - Training an LLM-as-a-Judge Model: Pipeline, Insights, and Practical Lessons [9.954960702259918]
本稿では,文脈認識評価を行うLLM(en:en:en:en:en:en:en:en:LLMs)ジャッジであるThemisを紹介する。
Themisの開発パイプラインの概要を概観し、シナリオに依存した評価プロンプトを強調します。
メタ評価のための人間ラベル付きベンチマークを2つ導入し、テミスが人間の嗜好を経済的に高度に調整できることを実証した。
論文 参考訳(メタデータ) (2025-02-05T08:35:55Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。
我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文 参考訳(メタデータ) (2023-06-09T11:31:50Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。