論文の概要: Video-to-Music Recommendation using Temporal Alignment of Segments
- arxiv url: http://arxiv.org/abs/2306.07187v1
- Date: Mon, 12 Jun 2023 15:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:01:43.725421
- Title: Video-to-Music Recommendation using Temporal Alignment of Segments
- Title(参考訳): セグメントの時間的アライメントを用いたビデオ対音楽レコメンデーション
- Authors: Laure Pr\'etet, Ga\"el Richard, Cl\'ement Souchier, Geoffroy Peeters
- Abstract要約: ビデオのサウンドトラックとして使用される楽曲のモーダルな推薦について検討する。
音楽と映像の関連性を学習する自己教師システムを構築した。
本稿では,構造認識レコメンデーションを用いたシステムの性能向上のための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.7235653928654235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study cross-modal recommendation of music tracks to be used as soundtracks
for videos. This problem is known as the music supervision task. We build on a
self-supervised system that learns a content association between music and
video. In addition to the adequacy of content, adequacy of structure is crucial
in music supervision to obtain relevant recommendations. We propose a novel
approach to significantly improve the system's performance using
structure-aware recommendation. The core idea is to consider not only the full
audio-video clips, but rather shorter segments for training and inference. We
find that using semantic segments and ranking the tracks according to sequence
alignment costs significantly improves the results. We investigate the impact
of different ranking metrics and segmentation methods.
- Abstract(参考訳): ビデオのサウンドトラックとして使用される楽曲の相互推薦について検討する。
この問題は音楽監督タスクとして知られている。
我々は,音楽とビデオのコンテント関係を学習する自己監督システムを構築した。
内容の充実に加えて、音楽監督において構造の充実が重要であり、適切なレコメンデーションを得る。
本稿では,構造認識レコメンデーションを用いたシステムの性能向上手法を提案する。
中心となる考え方は、完全なオーディオビデオクリップだけでなく、トレーニングと推論のための短いセグメントを考えることである。
セマンティクスセグメンテーションとトラックのランク付けをシーケンスアライメントで行えば,結果が大幅に向上することがわかった。
異なるランキング指標とセグメンテーション手法の影響について検討する。
関連論文リスト
- MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - Leveraging Negative Signals with Self-Attention for Sequential Music
Recommendation [0.27195102129094995]
負のフィードバックを取り入れ、正のヒットを促進し、負のヒットを罰する対照的な学習課題を提案する。
実験の結果,これはユーザからのネガティブなフィードバックを無視したベースラインアーキテクチャよりも一貫したパフォーマンス向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2023-09-20T20:21:13Z) - Fairness Through Domain Awareness: Mitigating Popularity Bias For Music
Discovery [56.77435520571752]
音楽発見と人気バイアスの本質的な関係について検討する。
本稿では,グラフニューラルネットワーク(GNN)に基づくレコメンデータシステムにおいて,人気バイアスに対処する,ドメイン対応の個別フェアネスに基づくアプローチを提案する。
我々のアプローチでは、個々の公正さを用いて、真実を聴く経験、すなわち2つの歌が似ているとすると、この類似性は彼らの表現に反映されるべきである。
論文 参考訳(メタデータ) (2023-08-28T14:12:25Z) - It's Time for Artistic Correspondence in Music and Video [32.31962546363909]
本稿では,あるビデオに対して楽曲を推薦するアプローチを提案する。また,その逆も,その時間的アライメントと,芸術的レベルでの対応の両方に基づいて提案する。
人間のアノテーションを必要とせずに、データから直接この対応を学習する自己教師型アプローチを提案する。
実験により、この手法は時間的文脈を利用していない選択肢を強く上回ることを示した。
論文 参考訳(メタデータ) (2022-06-14T20:21:04Z) - Explainability in Music Recommender Systems [69.0506502017444]
音楽レコメンダシステム(MRS)の文脈における説明可能性について論じる。
MRSは非常に複雑で、推奨精度に最適化されることが多い。
本稿では、MSSに説明可能性コンポーネントを組み込む方法と、どのようなフォーム説明を提供するかを示す。
論文 参考訳(メタデータ) (2022-01-25T18:32:11Z) - Unsupervised Learning of Deep Features for Music Segmentation [8.528384027684192]
音楽セグメンテーション(英: Music segmentation)は、音楽セグメンテーションの境界を識別し、ラベル付けする問題である。
様々な楽曲セグメンテーションアルゴリズムの性能は、音声を表現するために選択された音声機能に依存している。
本研究では,畳み込みニューラルネットワーク(CNN)を用いたディープ・フィーチャー・埋め込みの教師なしトレーニングを音楽セグメンテーションのために検討した。
論文 参考訳(メタデータ) (2021-08-30T01:55:44Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Learning to rank music tracks using triplet loss [6.43271391521664]
楽曲を明示的にタグ付けすることなく、音声コンテンツに基づいて直接レコメンデーションを行う手法を提案する。
畳み込みニューラルネットワークを訓練し、三重項損失による類似性を学習する。
結果は、特に自動プール層に関連付けられた場合、システムの効率性を強調します。
論文 参考訳(メタデータ) (2020-05-18T08:20:54Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。