論文の概要: Yambda-5B -- A Large-Scale Multi-modal Dataset for Ranking And Retrieval
- arxiv url: http://arxiv.org/abs/2505.22238v2
- Date: Sun, 01 Jun 2025 19:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.035612
- Title: Yambda-5B -- A Large-Scale Multi-modal Dataset for Ranking And Retrieval
- Title(参考訳): Yambda-5B -- ランク付けと検索のための大規模マルチモーダルデータセット
- Authors: A. Ploshkin, V. Tytskiy, A. Pismenny, V. Baikalov, E. Taychinov, A. Permiakov, D. Burlakov, E. Krofto, N. Savushkin,
- Abstract要約: 本稿では,Yandex Musicストリーミングプラットフォームをベースとした大規模オープンソースデータセットであるYambda-5Bを紹介する。
Yambda-5Bは、939万のトラックで100万人のユーザーから479億のユーザー・イテム・インタラクションを提供している。
Yambda-5Bの重要な特徴は、オーガニックユーザアクションとレコメンデーション駆動イベントを分離するis_organicフラグの追加である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Yambda-5B, a large-scale open dataset sourced from the Yandex Music streaming platform. Yambda-5B contains 4.79 billion user-item interactions from 1 million users across 9.39 million tracks. The dataset includes two primary types of interactions: implicit feedback (listening events) and explicit feedback (likes, dislikes, unlikes and undislikes). In addition, we provide audio embeddings for most tracks, generated by a convolutional neural network trained on audio spectrograms. A key distinguishing feature of Yambda-5B is the inclusion of the is_organic flag, which separates organic user actions from recommendation-driven events. This distinction is critical for developing and evaluating machine learning algorithms, as Yandex Music relies on recommender systems to personalize track selection for users. To support rigorous benchmarking, we introduce an evaluation protocol based on a Global Temporal Split, allowing recommendation algorithms to be assessed in conditions that closely mirror real-world use. We report benchmark results for standard baselines (ItemKNN, iALS) and advanced models (SANSA, SASRec) using a variety of evaluation metrics. By releasing Yambda-5B to the community, we aim to provide a readily accessible, industrial-scale resource to advance research, foster innovation, and promote reproducible results in recommender systems.
- Abstract(参考訳): 本稿では,Yandex Musicストリーミングプラットフォームをベースとした大規模オープンソースデータセットであるYambda-5Bを紹介する。
Yambda-5Bは、939万のトラックで100万人のユーザーから479億のユーザー・イテム・インタラクションを提供している。
データセットには、暗黙のフィードバック(イベントのリスニング)と明示的なフィードバック(いいね!
さらに、オーディオスペクトログラムに基づいてトレーニングされた畳み込みニューラルネットワークによって生成された、ほとんどのトラックにオーディオ埋め込みを提供する。
Yambda-5Bの重要な特徴は、オーガニックユーザアクションとレコメンデーション駆動イベントを分離するis_organicフラグの追加である。
Yandex Musicは、ユーザのトラック選択をパーソナライズするためのレコメンデータシステムに依存している。
厳密なベンチマークを支援するために,Global Temporal Splitに基づく評価プロトコルを導入する。
各種評価指標を用いて,標準ベースライン(ItemKNN, iALS)および先進モデル(SANSA, SASRec)のベンチマーク結果を報告する。
我々は,Yammbda-5Bをコミュニティに公開することにより,研究の進展,イノベーションの促進,レコメンデーションシステムにおける再現可能な成果の促進を図るために,容易にアクセス可能な産業規模の資源を提供することを目指している。
関連論文リスト
- Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Context-aware adaptive personalised recommendation: a meta-hybrid [0.41436032949434404]
機械学習を用いて最適なアルゴリズムを予測するメタハイブリッドレコメンデータを提案する。
提案モデルに基づいて、どのレコメンデータがユーザに最も正確なレコメンデーションを提供するかを予測できる。
論文 参考訳(メタデータ) (2024-10-17T09:24:40Z) - Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。
以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Track2Vec: fairness music recommendation with a GPU-free
customizable-driven framework [6.2405734957622245]
Track2Vecは、公正な音楽レコメンデーションのためのGPUフリーのカスタマイズ可能なフレームワークである。
公平度を測定するために,ミスレート-逆地中真実周波数(MR-ITF)と呼ばれる測定基準を導入する。
EvalRS @ CIKM 2022チャレンジでは,GPUフリー環境での価格ランキングを4位に引き上げている。
論文 参考訳(メタデータ) (2022-10-29T12:53:09Z) - Click-Through Rate Prediction Using Graph Neural Networks and Online
Learning [0.0]
CTR予測精度のわずかな改善は、広告業界に数百万ドルの収益を追加すると言及されています。
このプロジェクトは、グラフニューラルネットワークとオンライン学習アルゴリズムを使用したCTR予測器の構築に関心がある。
論文 参考訳(メタデータ) (2021-05-09T01:35:49Z) - Dynamic Slate Recommendation with Gated Recurrent Units and Thompson
Sampling [6.312395952874578]
我々は,インターネットプラットフォームのユーザに対して,アイテムリストとしてslatesという,関連するコンテンツを推薦する問題を考える。
本稿では,インターネットプラットフォームとユーザ間のインタラクションの時系列に作用する変分ベイズ型リカレントニューラルネットレコメンデータシステムを提案する。
我々は,探索的レコメンデーション戦略が,同程度以上の欲望に対して有効であることを実験的に示す。
論文 参考訳(メタデータ) (2021-04-30T15:16:35Z) - Controllable Multi-Interest Framework for Recommendation [64.30030600415654]
我々はレコメンデータシステムを逐次レコメンデーション問題として定式化する。
我々は,ComiRec と呼ばれる連続的なレコメンデーションのための新しい制御可能な多目的フレームワークを提案する。
私たちのフレームワークは、オフラインのAlibaba分散クラウドプラットフォームにうまくデプロイされています。
論文 参考訳(メタデータ) (2020-05-19T10:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。