論文の概要: Diff4Steer: Steerable Diffusion Prior for Generative Music Retrieval with Semantic Guidance
- arxiv url: http://arxiv.org/abs/2412.04746v1
- Date: Fri, 06 Dec 2024 03:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:54:51.998618
- Title: Diff4Steer: Steerable Diffusion Prior for Generative Music Retrieval with Semantic Guidance
- Title(参考訳): Diff4Steer: セマンティックガイダンスによる生成音楽検索に先立つステアブル拡散
- Authors: Xuchan Bao, Judith Yue Li, Zhong Yi Wan, Kun Su, Timo Denk, Joonseok Lee, Dima Kuzmin, Fei Sha,
- Abstract要約: Diff4Steerは、ユーザクエリから多様なシード埋め込みを合成する新しい生成検索フレームワークである。
Diff4Steerは、検索対象のモダリティ(オーディオ)に関する統計的事前情報を提供し、ユーザの嗜好の不確実性と多面的な性質を効果的に捉えている。
- 参考スコア(独自算出の注目度): 30.184079373291336
- License:
- Abstract: Modern music retrieval systems often rely on fixed representations of user preferences, limiting their ability to capture users' diverse and uncertain retrieval needs. To address this limitation, we introduce Diff4Steer, a novel generative retrieval framework that employs lightweight diffusion models to synthesize diverse seed embeddings from user queries that represent potential directions for music exploration. Unlike deterministic methods that map user query to a single point in embedding space, Diff4Steer provides a statistical prior on the target modality (audio) for retrieval, effectively capturing the uncertainty and multi-faceted nature of user preferences. Furthermore, Diff4Steer can be steered by image or text inputs, enabling more flexible and controllable music discovery combined with nearest neighbor search. Our framework outperforms deterministic regression methods and LLM-based generative retrieval baseline in terms of retrieval and ranking metrics, demonstrating its effectiveness in capturing user preferences, leading to more diverse and relevant recommendations. Listening examples are available at tinyurl.com/diff4steer.
- Abstract(参考訳): 現代の音楽検索システムは、しばしばユーザの好みの定型表現に依存し、ユーザの多様な不確実な検索ニーズを捉える能力を制限する。
Diff4Steerは、軽量拡散モデルを用いて、音楽探索の潜在的方向を表すユーザクエリから多様なシード埋め込みを合成する新しい生成検索フレームワークである。
埋め込み空間の単一点にユーザクエリをマッピングする決定論的手法とは異なり、Diff4Steerは検索対象のモダリティ(オーディオ)に関する統計的事前情報を提供し、ユーザの好みの不確実性と多面的な性質を効果的に捉えている。
さらに、Diff4Steerは画像やテキスト入力で操作でき、より柔軟で制御可能な音楽発見と近くの検索を組み合わせられる。
本フレームワークは,検索とランキングの指標として,決定論的回帰法とLLMに基づく生成検索ベースラインを上回り,ユーザの嗜好を捉える上での有効性を実証し,より多様で関連性の高いレコメンデーションへと導いた。
リスニング例は littleurl.com/diff4steer で公開されている。
関連論文リスト
- OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup [50.70494796172493]
Omni-modal Sound separation (OmniSep) は、Omni-modal クエリに基づいてクリーンなサウンドトラックを分離できる新しいフレームワークである。
トレーニング中に異なるモダリティからクエリ機能をブレンドするQuery-Mixup戦略を導入する。
我々は、クエリーが音の分離に肯定的または否定的に影響を与え、特定の音の保持や除去を容易にすることにより、この柔軟性をさらに強化する。
論文 参考訳(メタデータ) (2024-10-28T17:58:15Z) - pEBR: A Probabilistic Approach to Embedding Based Retrieval [4.8338111302871525]
埋め込み検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
現在の産業実践では、検索システムは典型的には、異なるクエリに対して一定数のアイテムを検索する。
論文 参考訳(メタデータ) (2024-10-25T07:14:12Z) - TruthSR: Trustworthy Sequential Recommender Systems via User-generated Multimodal Content [21.90660366765994]
ノイズの多いユーザ生成マルチモーダルコンテンツによる信頼性の高いシーケンシャルレコメンデーション手法を提案する。
具体的には、ノイズ干渉を軽減するために、ユーザ生成したマルチモーダルコンテンツの一貫性と相補性を捉える。
さらに,主観的ユーザ視点と客観的項目視点を統合した信頼性の高い意思決定機構を設計する。
論文 参考訳(メタデータ) (2024-04-26T08:23:36Z) - Against Filter Bubbles: Diversified Music Recommendation via Weighted
Hypergraph Embedding Learning [34.44702150305634]
本稿ではDWHRec(Diversified Weighted Hypergraph Music Recommendation Algorithm)を紹介する。
DWHRecでは、ユーザとリスニングトラックの関連は重み付きハイパーグラフで表される。
2つの実世界の音楽データセットを用いて,DWHRecを7つの最先端レコメンデーションアルゴリズムと比較した。
論文 参考訳(メタデータ) (2024-02-26T04:43:44Z) - Ada-Retrieval: An Adaptive Multi-Round Retrieval Paradigm for Sequential
Recommendations [50.03560306423678]
本稿では,レコメンダシステムのための適応型マルチラウンド検索パラダイムであるAda-Retrievalを提案する。
Ada-Retrievalは、ユーザー表現を反復的に洗練し、全項目領域の潜在的な候補をよりよく捉えます。
論文 参考訳(メタデータ) (2024-01-12T15:26:40Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - Evaluating and Optimizing Hearing-Aid Self-Fitting Methods using
Population Coverage [0.4014524824655105]
軽度から軽度に聴力を失う成人は、聴力障害を従来の聴力障害のわずかなコストで治療するために、オーバーザカウンタ補聴器を使用することができる。
これらの製品には、聴覚学者の助けを借りずに、エンドユーザが補聴器を設定できる自己適合方式が組み込まれている。
本稿では,効率的な自己適合手法を設計する方法と,高価なユーザスタディに頼らずに設計の特定の側面を評価することができるかを検討する。
論文 参考訳(メタデータ) (2022-10-25T03:02:55Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - Session-Aware Query Auto-completion using Extreme Multi-label Ranking [61.753713147852125]
本稿では,セッション対応クエリ自動補完の新たな手法を,XMR(Multi Multi-Xtreme Ranking)問題として取り上げる。
アルゴリズムのキーステップにいくつかの修正を提案することにより、この目的のために一般的なXMRアルゴリズムを適応させる。
当社のアプローチは、セッション情報を活用しながら、自動補完システムの厳しいレイテンシ要件を満たします。
論文 参考訳(メタデータ) (2020-12-09T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。