論文の概要: MuChator: Enabling Active Music Discovery via Conversational Music LLMs in Douyin Music
- arxiv url: http://arxiv.org/abs/2605.27103v1
- Date: Tue, 26 May 2026 14:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.269022
- Title: MuChator: Enabling Active Music Discovery via Conversational Music LLMs in Douyin Music
- Title(参考訳): MuChator:Douyin Musicにおける会話型音楽LLMによるアクティブ音楽発見の実現
- Authors: Jiahao Liang, Linzhi Huang, Xuannan Liu, Xukai Wang, Xuanpu Luo, Yongchun Zhu, Jingwu Chen, Feng Zhang, Xiao Yang,
- Abstract要約: 自然言語で状況音楽の意図を積極的に表現できる対話型フレームワーク MuChator を紹介する。
MuChatorには音楽知識事前学習、コンテキスト対応インストラクションチューニング、ハイブリッドRMによるPreference Alignmentという3つの重要なコンポーネントが含まれている。
MuChatorはByteDance内のDouyin Music Appにデプロイされており、オンラインA/Bテストでは46.49%のユーザアクティブデイが改善されている。
- 参考スコア(独自算出の注目度): 18.339515994970757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Douyin Music, a large-scale platform with millions of daily users, adopts an immersive, feed-based discovery paradigm, where users passively explore music through continuous recommendations. While effective for passive music discovery, this paradigm restricts users to recommendation results and provides limited support for explicitly specifying listening intents. Unlike conventional search, where users express well-defined intents through explicit queries such as specific songs or artists, real-world active music discovery is often situational and colloquial, involving vague or underspecified requests. While LLMs enable natural language interaction, their direct use in music discovery remains limited by insufficient music-domain knowledge, lack of music-query collaborative reasoning, and shallow understanding of personalized preferences. To address these challenges, we introduce MuChator, an interactive MusicLLM-based framework that enables users to actively express situational music intents in natural language. MuChator incorporates three key components: (1) Music Knowledge Pre-training, a three-stage scheme that incrementally injects objective music knowledge, subjective music knowledge, and personalized music preferences into LLMs; (2) Context-aware Instruction Tuning, which constructs high-quality user-query-music triplets through an automated synthesis pipeline to align LLMs with active and situational user intents; and (3) Preference Alignment with Hybrid RM, which jointly models intent relevance, personalized preferences, and basic constraints, and is optimized using GRPO-based reinforcement learning. Extensive evaluations on industrial music recommendation datasets demonstrate that MuChator outperforms leading proprietary models, such as Gemini-3-Pro. The model has been deployed on Douyin Music App within ByteDance, with 46.49\% improvement of user active days in online A/B test.
- Abstract(参考訳): Douyin Musicは、何百万人ものデイリーユーザーを抱える大規模なプラットフォームで、没入型のフィードベースの発見パラダイムを採用しており、ユーザーは継続的なレコメンデーションを通じて音楽を受動的に探索する。
受動的音楽発見には有効であるが、このパラダイムはユーザの推薦を制限し、聴取意図を明確に指定するための限定的なサポートを提供する。
ユーザが特定の曲やアーティストなどの明示的なクエリを通じて明確に定義された意図を表現する従来の検索とは異なり、現実のアクティブな音楽発見はしばしば状況や口頭で行われ、あいまいな要求や不明瞭な要求が伴う。
LLMは自然言語の相互作用を可能にするが、音楽発見における直接的な使用は、音楽ドメインの知識不足、音楽クエリの協調推論の欠如、パーソナライズされた好みの浅い理解によって制限されている。
これらの課題に対処するために,対話型MusicLLMベースのフレームワークであるMuChatorを紹介した。
MuChator には,(1) 目的音楽知識,主観的音楽知識,パーソナライズされた音楽嗜好を LLM に段階的に注入する3段階事前学習,(2) 文脈認識学習,(2) LLM をアクティブかつ状況的ユーザ意図と整合させるための自動合成パイプラインによる高品質なユーザクエリ・トリプレット構築,(3) ハイブリッドRM による嗜好適応(Preference Alignment with Hybrid RM) の3つの要素が組み込まれており,GRPO ベースの強化学習を用いて最適化されている。
インダストリアルミュージックレコメンデーションデータセットの大規模な評価は、MuChatorがGemini-3-Proのような主要なプロプライエタリモデルよりも優れていることを示している。
このモデルはByteDance内のDouyin Music Appにデプロイされ、オンラインA/Bテストでは46.49\%のユーザアクティブデイが改善された。
関連論文リスト
- Revisiting Content-Based Music Recommendation: Efficient Feature Aggregation from Large-Scale Music Models [54.4270504928356]
Music Recommendation Systems (MRS)は、現代のストリーミングプラットフォームの基盤である。
我々は,音楽レコメンデーションにおけるマルチモーダル情報の役割を強調するために,総合的なデータセットとベンチマークフレームワークであるTASTEを提案する。
近年の大規模自己監督型音楽エンコーダの活用により,レコメンデーションタスク間で抽出された音声表現の意義を実証する。
論文 参考訳(メタデータ) (2026-02-10T15:24:41Z) - WeMusic-Agent: Efficient Conversational Music Recommendation via Knowledge Internalization and Agentic Boundary Learning [12.737364415781805]
本稿では,効率的な対話型音楽レコメンデーションのためのトレーニングフレームワークWeMusic-Agentを提案する。
WeMusic-Agent-M1は,50B音楽関連コーパスの継続事前学習を通じて,幅広い音楽知識を内包するエージェントモデルである。
また,WeChat Listenにおける実世界データに基づくパーソナライズされた音楽レコメンデーションのベンチマークを構築した。
論文 参考訳(メタデータ) (2025-12-18T02:59:19Z) - Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - Just Ask for Music (JAM): Multimodal and Personalized Natural Language Music Recommendation [47.05078668091976]
我々は、自然言語音楽レコメンデーションのための軽量で直感的なフレームワークであるJAM(Just Ask for Music)を提示する。
音楽とユーザ意図の複雑さを捉えるため、JAMはクロスアテンションとスパース・ミックス・オブ・エキスパートを通じてマルチモーダルアイテムの特徴を集約する。
JAMは正確なレコメンデーションを提供し、実用的なユースケースに適した直感的な表現を生成し、既存のレコメンデーションスタックと容易に統合できることを示す。
論文 参考訳(メタデータ) (2025-07-21T17:36:03Z) - SoundSignature: What Type of Music Do You Like? [0.0]
SoundSignatureは、ユーザーのお気に入りの曲を分析するためにカスタムのOpenAIアシスタントを統合する音楽アプリケーションである。
このシステムには最先端の音楽情報検索(MIR)Pythonパッケージが組み込まれており、抽出された音響的・音楽的特徴と、アシスタントのアーティストやバンドに関する広範な知識を組み合わせている。
論文 参考訳(メタデータ) (2024-10-04T12:40:45Z) - Towards Leveraging Contrastively Pretrained Neural Audio Embeddings for Recommender Tasks [18.95453617434051]
音楽レコメンデータシステムは、しばしばネットワークベースのモデルを使用して、楽曲、アーティスト、ユーザー間の関係をキャプチャする。
新しい音楽作品やアーティストは、初期情報が不十分なため、コールドスタートの問題に直面することが多い。
これを解決するために、音楽から直接コンテンツベースの情報を抽出し、協調フィルタリングに基づく手法を強化する。
論文 参考訳(メタデータ) (2024-09-13T17:53:06Z) - LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation [49.89372182441713]
マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。
我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
論文 参考訳(メタデータ) (2024-06-20T14:02:15Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - MuseChat: A Conversational Music Recommendation System for Videos [12.47508840909336]
MuseChatは、ビデオのための音楽提案をパーソナライズする対話ベースのレコメンデーションシステムである。
我々のシステムは2つの重要な機能と関連するモジュールから構成される:レコメンデーションと推論。
実験結果から,MuseChatは既存のビデオベース音楽検索法よりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-10-10T03:32:33Z) - Fairness Through Domain Awareness: Mitigating Popularity Bias For Music
Discovery [56.77435520571752]
音楽発見と人気バイアスの本質的な関係について検討する。
本稿では,グラフニューラルネットワーク(GNN)に基づくレコメンデータシステムにおいて,人気バイアスに対処する,ドメイン対応の個別フェアネスに基づくアプローチを提案する。
我々のアプローチでは、個々の公正さを用いて、真実を聴く経験、すなわち2つの歌が似ているとすると、この類似性は彼らの表現に反映されるべきである。
論文 参考訳(メタデータ) (2023-08-28T14:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。