論文の概要: Musical Audio Similarity with Self-supervised Convolutional Neural
Networks
- arxiv url: http://arxiv.org/abs/2202.02112v1
- Date: Fri, 4 Feb 2022 12:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 21:16:55.308460
- Title: Musical Audio Similarity with Self-supervised Convolutional Neural
Networks
- Title(参考訳): 自己教師付き畳み込みニューラルネットワークによる音楽音声の類似性
- Authors: Carl Thom\'e, Sebastian Piwell, Oscar Utterb\"ack
- Abstract要約: われわれは、ビデオプロデューサーが聴ける音楽の抜粋を検索できる音楽類似検索エンジンを開発した。
本システムは,自己教師型畳み込みニューラルネットワークを訓練することにより,大規模音楽カタログにおける類似のトラックセグメントを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We have built a music similarity search engine that lets video producers
search by listenable music excerpts, as a complement to traditional full-text
search. Our system suggests similar sounding track segments in a large music
catalog by training a self-supervised convolutional neural network with triplet
loss terms and musical transformations. Semi-structured user interviews
demonstrate that we can successfully impress professional video producers with
the quality of the search experience, and perceived similarities to query
tracks averaged 7.8/10 in user testing. We believe this search tool will make
for a more natural search experience that is easier to find music to soundtrack
videos with.
- Abstract(参考訳): 我々は、従来のフルテキスト検索の補完として、再生可能な音楽の抜粋でビデオプロデューサーが検索できる音楽類似検索エンジンを構築した。
本システムでは,三重項損失項と音楽変換を用いた自己教師型畳み込みニューラルネットワークの学習により,大規模な楽曲カタログにおける類似のトラックセグメントを提案する。
半構造化されたユーザインタビューでは、プロのビデオ制作者に検索体験の質を印象付けることができ、ユーザテストでは平均7.8/10のクエリトラックと類似性が認識される。
この検索ツールは、音楽やサウンドトラックビデオを簡単に見つけられるように、より自然な検索体験をもたらすと信じています。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。
本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:33:34Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Learning to rank music tracks using triplet loss [6.43271391521664]
楽曲を明示的にタグ付けすることなく、音声コンテンツに基づいて直接レコメンデーションを行う手法を提案する。
畳み込みニューラルネットワークを訓練し、三重項損失による類似性を学習する。
結果は、特に自動プール層に関連付けられた場合、システムの効率性を強調します。
論文 参考訳(メタデータ) (2020-05-18T08:20:54Z) - AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent
Videos with Deep Learning [5.33024001730262]
ビデオの代表的なオーディオトラックを合成するのに使用できる、完全に自動化されたディープラーニングツールであるAutoFoleyを紹介する。
AutoFoleyは、ビデオに関連付けられた対応するオーディオファイルがないアプリケーションや、重要なシナリオを特定する必要がある場合でも使用できる。
実験により, 合成した音は, 関連した視覚入力の正確な時間同期でリアルに表現されていることがわかった。
論文 参考訳(メタデータ) (2020-02-21T09:08:28Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z) - Audiovisual SlowFast Networks for Video Recognition [140.08143162600354]
本稿では,視聴覚統合アーキテクチャであるAudiovisual SlowFast Networksを紹介する。
複数の層に音声と視覚的特徴を融合させ,階層型音声視覚概念の形成に寄与する。
6つのビデオ行動分類と検出データセットの結果を報告し、詳細なアブレーション研究を行い、AVSlowFastの一般化を示し、自己監督型音声視覚特徴を学習する。
論文 参考訳(メタデータ) (2020-01-23T18:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。