論文の概要: MuseChat: A Conversational Music Recommendation System for Videos
- arxiv url: http://arxiv.org/abs/2310.06282v1
- Date: Tue, 10 Oct 2023 03:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 20:46:19.867603
- Title: MuseChat: A Conversational Music Recommendation System for Videos
- Title(参考訳): musechat:ビデオのための会話型音楽推薦システム
- Authors: Zhikang Dong, Bin Chen, Xiulong Liu, Pawel Polak, Peng Zhang
- Abstract要約: 本研究では,イノベーティブな対話型音楽レコメンデーションシステムMuseChatを紹介する。
このユニークなプラットフォームは、インタラクティブなユーザーエンゲージメントを提供するだけでなく、インプットビデオに適した音楽も提案している。
評価の結果,MuseChatは音楽検索タスクにおける既存の最先端モデルを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 12.47508840909336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MuseChat, an innovative dialog-based music recommendation
system. This unique platform not only offers interactive user engagement but
also suggests music tailored for input videos, so that users can refine and
personalize their music selections. In contrast, previous systems predominantly
emphasized content compatibility, often overlooking the nuances of users'
individual preferences. For example, all the datasets only provide basic
music-video pairings or such pairings with textual music descriptions. To
address this gap, our research offers three contributions. First, we devise a
conversation-synthesis method that simulates a two-turn interaction between a
user and a recommendation system, which leverages pre-trained music tags and
artist information. In this interaction, users submit a video to the system,
which then suggests a suitable music piece with a rationale. Afterwards, users
communicate their musical preferences, and the system presents a refined music
recommendation with reasoning. Second, we introduce a multi-modal
recommendation engine that matches music either by aligning it with visual cues
from the video or by harmonizing visual information, feedback from previously
recommended music, and the user's textual input. Third, we bridge music
representations and textual data with a Large Language Model(Vicuna-7B). This
alignment equips MuseChat to deliver music recommendations and their underlying
reasoning in a manner resembling human communication. Our evaluations show that
MuseChat surpasses existing state-of-the-art models in music retrieval tasks
and pioneers the integration of the recommendation process within a natural
language framework.
- Abstract(参考訳): 本研究では,イノベーティブな対話型音楽レコメンデーションシステムMuseChatを紹介する。
このユニークなプラットフォームは、インタラクティブなユーザーエンゲージメントを提供するだけでなく、入力ビデオ用にカスタマイズされた音楽も提案するので、ユーザーは自分の楽曲を洗練し、パーソナライズすることができる。
対照的に、以前のシステムはコンテンツ互換性を重視しており、しばしばユーザーの個人の好みのニュアンスを見落としていた。
例えば、すべてのデータセットは、基本的な音楽とビデオのペアリングや、テキストによる音楽記述とのペアリングのみを提供する。
このギャップに対処するため、我々の研究は3つの貢献をしている。
まず,事前学習された音楽タグとアーティスト情報を活用した,ユーザとレコメンデーションシステムとの双方向インタラクションをシミュレートする会話合成手法を考案する。
このインタラクションでは,ユーザがシステムにビデオを送ると,適切な楽曲を合理的に提案する。
その後、ユーザは音楽の好みを伝達し、システムは推論で洗練された音楽レコメンデーションを提示する。
第2に,ビデオからの視覚的な手がかりと一致させたり,視覚情報を調和させたり,従来推奨されていた音楽からのフィードバックやユーザのテキスト入力などにより,音楽にマッチするマルチモーダルレコメンデーションエンジンを導入する。
第3に、音楽表現とテキストデータをLarge Language Model(Vicuna-7B)でブリッジする。
このアライメントは、musechatに音楽のレコメンデーションと、その根拠となる推論を人間のコミュニケーションに似た方法で提供させる。
評価の結果,MuseChatは音楽検索タスクにおける既存の最先端モデルを超え,自然言語フレームワーク内でのレコメンデーションプロセスの統合の先駆けとなった。
関連論文リスト
- SoundSignature: What Type of Music Do You Like? [0.0]
SoundSignatureは、ユーザーのお気に入りの曲を分析するためにカスタムのOpenAIアシスタントを統合する音楽アプリケーションである。
このシステムには最先端の音楽情報検索(MIR)Pythonパッケージが組み込まれており、抽出された音響的・音楽的特徴と、アシスタントのアーティストやバンドに関する広範な知識を組み合わせている。
論文 参考訳(メタデータ) (2024-10-04T12:40:45Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Intelligent Director: An Automatic Framework for Dynamic Visual
Composition using ChatGPT [47.40350722537004]
ユーザ要求に基づいて様々なメディア要素を自動的に統合し,ストーリーテリングビデオを作成するための動的ビジュアルコンポジション(DVC)タスクを提案する。
我々は、LENSを利用して画像やビデオフレームの記述を生成し、ChatGPTを組み合わせてコヒーレントキャプションを生成するIntelligent Directorフレームワークを提案する。
UCF101-DVCとPersonal Albumデータセットを構築し,本フレームワークの有効性を検証した。
論文 参考訳(メタデータ) (2024-02-24T06:58:15Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - Fairness Through Domain Awareness: Mitigating Popularity Bias For Music
Discovery [56.77435520571752]
音楽発見と人気バイアスの本質的な関係について検討する。
本稿では,グラフニューラルネットワーク(GNN)に基づくレコメンデータシステムにおいて,人気バイアスに対処する,ドメイン対応の個別フェアネスに基づくアプローチを提案する。
我々のアプローチでは、個々の公正さを用いて、真実を聴く経験、すなわち2つの歌が似ているとすると、この類似性は彼らの表現に反映されるべきである。
論文 参考訳(メタデータ) (2023-08-28T14:12:25Z) - Language-Guided Music Recommendation for Video via Prompt Analogies [35.48998901411509]
本稿では,ユーザが自由形式の自然言語で楽曲選択をガイドできるようにし,入力ビデオに楽曲を推薦する方法を提案する。
既存の音楽ビデオデータセットは、必要な(ビデオ、音楽)トレーニングペアを提供するが、音楽のテキスト記述は欠落している。
論文 参考訳(メタデータ) (2023-06-15T17:58:01Z) - VideoChat: Chat-Centric Video Understanding [80.63932941216129]
我々は、ビデオチャットと呼ばれるエンドツーエンドのチャット中心のビデオ理解システムを開発した。
学習可能なニューラルネットワークを通じて、ビデオファンデーションモデルと大きな言語モデルを統合する。
予備的な定性的実験は、幅広いビデオアプリケーションにまたがる我々のシステムの可能性を実証している。
論文 参考訳(メタデータ) (2023-05-10T17:59:04Z) - Explainability in Music Recommender Systems [69.0506502017444]
音楽レコメンダシステム(MRS)の文脈における説明可能性について論じる。
MRSは非常に複雑で、推奨精度に最適化されることが多い。
本稿では、MSSに説明可能性コンポーネントを組み込む方法と、どのようなフォーム説明を提供するかを示す。
論文 参考訳(メタデータ) (2022-01-25T18:32:11Z) - Self-Supervised Bot Play for Conversational Recommendation with
Justifications [3.015622397986615]
会話レコメンデーションシステムのトレーニングを行うための新しい2部フレームワークを開発した。
まず,提案する項目を共同で提案し,その推論を主観的な側面で正当化するために,推薦システムを訓練する。
次に、このモデルを微調整して、自己教師型ボットプレイによる反復的なユーザフィードバックを組み込む。
論文 参考訳(メタデータ) (2021-12-09T20:07:41Z) - Time-Aware Music Recommender Systems: Modeling the Evolution of Implicit
User Preferences and User Listening Habits in A Collaborative Filtering
Approach [4.576379639081977]
本稿では,曲の演奏時期に関する時間的情報について考察する。
その目的は、ユーザの好みの進化を、暗黙の格付けとユーザの聴取行動の進化という形でモデル化することである。
本研究で提案する協調フィルタリング手法では,ユーザを特徴付け,より信頼性の高いレコメンデーションを提供するために,日々の聴取習慣を捉えている。
論文 参考訳(メタデータ) (2020-08-26T08:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。