論文の概要: MuseChat: A Conversational Music Recommendation System for Videos
- arxiv url: http://arxiv.org/abs/2310.06282v4
- Date: Sat, 9 Mar 2024 18:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:47:31.810275
- Title: MuseChat: A Conversational Music Recommendation System for Videos
- Title(参考訳): musechat:ビデオのための会話型音楽推薦システム
- Authors: Zhikang Dong, Bin Chen, Xiulong Liu, Pawel Polak, Peng Zhang
- Abstract要約: MuseChatは、ビデオのための音楽提案をパーソナライズする対話ベースのレコメンデーションシステムである。
我々のシステムは2つの重要な機能と関連するモジュールから構成される:レコメンデーションと推論。
実験結果から,MuseChatは既存のビデオベース音楽検索法よりも大幅に改善されていることがわかった。
- 参考スコア(独自算出の注目度): 12.47508840909336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music recommendation for videos attracts growing interest in multi-modal
research. However, existing systems focus primarily on content compatibility,
often ignoring the users' preferences. Their inability to interact with users
for further refinements or to provide explanations leads to a less satisfying
experience. We address these issues with MuseChat, a first-of-its-kind
dialogue-based recommendation system that personalizes music suggestions for
videos. Our system consists of two key functionalities with associated modules:
recommendation and reasoning. The recommendation module takes a video along
with optional information including previous suggested music and user's
preference as inputs and retrieves an appropriate music matching the context.
The reasoning module, equipped with the power of Large Language Model
(Vicuna-7B) and extended to multi-modal inputs, is able to provide reasonable
explanation for the recommended music. To evaluate the effectiveness of
MuseChat, we build a large-scale dataset, conversational music recommendation
for videos, that simulates a two-turn interaction between a user and a
recommender based on accurate music track information. Experiment results show
that MuseChat achieves significant improvements over existing video-based music
retrieval methods as well as offers strong interpretability and
interactability.
- Abstract(参考訳): ビデオのための音楽レコメンデーションは、マルチモーダル研究への関心が高まっている。
しかし、既存のシステムはコンテンツ互換性に重点を置いており、ユーザーの好みを無視していることが多い。
さらなる改良のためにユーザと対話したり、説明を提供したりできないことは、満足のいく経験に繋がる。
ビデオのための音楽提案をパーソナライズする対話型レコメンデーションシステムであるmusechatでこの問題に対処した。
我々のシステムは2つの重要な機能と関連するモジュールから構成される:レコメンデーションと推論。
レコメンデーションモジュールは、以前の推奨音楽やユーザの好みを含む任意の情報を入力としてビデオを取り、コンテキストにマッチした適切な音楽を取得する。
推論モジュールはLarge Language Model (Vicuna-7B)のパワーを備え、マルチモーダル入力に拡張され、推奨音楽に対して合理的な説明を提供することができる。
musechatの有効性を評価するために,ビデオに対する対話型音楽レコメンデーションという大規模データセットを構築し,正確な音楽トラック情報に基づいてユーザとレコメンデータ間の2ターンインタラクションをシミュレートする。
実験結果から,MuseChatは既存のビデオベース音楽検索法よりも大幅に改善され,高い解釈性と対話性が得られることがわかった。
関連論文リスト
- SoundSignature: What Type of Music Do You Like? [0.0]
SoundSignatureは、ユーザーのお気に入りの曲を分析するためにカスタムのOpenAIアシスタントを統合する音楽アプリケーションである。
このシステムには最先端の音楽情報検索(MIR)Pythonパッケージが組み込まれており、抽出された音響的・音楽的特徴と、アシスタントのアーティストやバンドに関する広範な知識を組み合わせている。
論文 参考訳(メタデータ) (2024-10-04T12:40:45Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Intelligent Director: An Automatic Framework for Dynamic Visual
Composition using ChatGPT [47.40350722537004]
ユーザ要求に基づいて様々なメディア要素を自動的に統合し,ストーリーテリングビデオを作成するための動的ビジュアルコンポジション(DVC)タスクを提案する。
我々は、LENSを利用して画像やビデオフレームの記述を生成し、ChatGPTを組み合わせてコヒーレントキャプションを生成するIntelligent Directorフレームワークを提案する。
UCF101-DVCとPersonal Albumデータセットを構築し,本フレームワークの有効性を検証した。
論文 参考訳(メタデータ) (2024-02-24T06:58:15Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - Fairness Through Domain Awareness: Mitigating Popularity Bias For Music
Discovery [56.77435520571752]
音楽発見と人気バイアスの本質的な関係について検討する。
本稿では,グラフニューラルネットワーク(GNN)に基づくレコメンデータシステムにおいて,人気バイアスに対処する,ドメイン対応の個別フェアネスに基づくアプローチを提案する。
我々のアプローチでは、個々の公正さを用いて、真実を聴く経験、すなわち2つの歌が似ているとすると、この類似性は彼らの表現に反映されるべきである。
論文 参考訳(メタデータ) (2023-08-28T14:12:25Z) - Language-Guided Music Recommendation for Video via Prompt Analogies [35.48998901411509]
本稿では,ユーザが自由形式の自然言語で楽曲選択をガイドできるようにし,入力ビデオに楽曲を推薦する方法を提案する。
既存の音楽ビデオデータセットは、必要な(ビデオ、音楽)トレーニングペアを提供するが、音楽のテキスト記述は欠落している。
論文 参考訳(メタデータ) (2023-06-15T17:58:01Z) - VideoChat: Chat-Centric Video Understanding [80.63932941216129]
我々は、ビデオチャットと呼ばれるエンドツーエンドのチャット中心のビデオ理解システムを開発した。
学習可能なニューラルネットワークを通じて、ビデオファンデーションモデルと大きな言語モデルを統合する。
予備的な定性的実験は、幅広いビデオアプリケーションにまたがる我々のシステムの可能性を実証している。
論文 参考訳(メタデータ) (2023-05-10T17:59:04Z) - Explainability in Music Recommender Systems [69.0506502017444]
音楽レコメンダシステム(MRS)の文脈における説明可能性について論じる。
MRSは非常に複雑で、推奨精度に最適化されることが多い。
本稿では、MSSに説明可能性コンポーネントを組み込む方法と、どのようなフォーム説明を提供するかを示す。
論文 参考訳(メタデータ) (2022-01-25T18:32:11Z) - Self-Supervised Bot Play for Conversational Recommendation with
Justifications [3.015622397986615]
会話レコメンデーションシステムのトレーニングを行うための新しい2部フレームワークを開発した。
まず,提案する項目を共同で提案し,その推論を主観的な側面で正当化するために,推薦システムを訓練する。
次に、このモデルを微調整して、自己教師型ボットプレイによる反復的なユーザフィードバックを組み込む。
論文 参考訳(メタデータ) (2021-12-09T20:07:41Z) - Time-Aware Music Recommender Systems: Modeling the Evolution of Implicit
User Preferences and User Listening Habits in A Collaborative Filtering
Approach [4.576379639081977]
本稿では,曲の演奏時期に関する時間的情報について考察する。
その目的は、ユーザの好みの進化を、暗黙の格付けとユーザの聴取行動の進化という形でモデル化することである。
本研究で提案する協調フィルタリング手法では,ユーザを特徴付け,より信頼性の高いレコメンデーションを提供するために,日々の聴取習慣を捉えている。
論文 参考訳(メタデータ) (2020-08-26T08:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。