Fugu-MT 論文翻訳(概要): MULTIMODAL ANALYSIS: Informed content estimation and audio source separation

論文の概要: MULTIMODAL ANALYSIS: Informed content estimation and audio source separation

arxiv url: http://arxiv.org/abs/2104.13276v1
Date: Tue, 27 Apr 2021 15:45:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-28 13:16:08.967788
Title: MULTIMODAL ANALYSIS: Informed content estimation and audio source separation
Title（参考訳）: マルチモーダル分析:インフォームドコンテンツ推定と音源分離
Authors: Gabriel Meseguer-Brocal
Abstract要約: 歌声は、オーディオ信号とテキスト情報を独自の方法で直接接続します。本研究は、音源分離と情報コンテンツ推定のための音声と歌詞の相互作用に焦点を当てた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This dissertation proposes the study of multimodal learning in the context of musical signals. Throughout, we focus on the interaction between audio signals and text information. Among the many text sources related to music that can be used (e.g. reviews, metadata, or social network feedback), we concentrate on lyrics. The singing voice directly connects the audio signal and the text information in a unique way, combining melody and lyrics where a linguistic dimension complements the abstraction of musical instruments. Our study focuses on the audio and lyrics interaction for targeting source separation and informed content estimation.
Abstract（参考訳）: この論文は音楽信号の文脈におけるマルチモーダル学習の研究を提案する。全体として、音声信号とテキスト情報の相互作用に注目している。利用可能な音楽に関連する多くのテキストソース(例えば、) レビュー、メタデータ、ソーシャルネットワークからのフィードバック)は歌詞に集中します。歌声は、言語的な次元が楽器の抽象化を補完するメロディと歌詞を結合して、オーディオ信号とテキスト情報をユニークな方法で直接接続する。本研究では,音源分離と情報コンテンツ推定のための音声と歌詞の相互作用に着目した。

関連論文リスト

MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
Investigating Personalization Methods in Text to Music Generation [21.71190700761388]
コンピュータビジョン領域の最近の進歩に触発されて、事前学習されたテキスト・オーディオ・ディフューザと2つの確立されたパーソナライズ手法の組み合わせを初めて検討した。評価のために,プロンプトと音楽クリップを用いた新しいデータセットを構築した。分析の結果、類似度指標はユーザの好みに応じており、現在のパーソナライズアプローチでは、メロディよりもリズム音楽の構成を学習しやすい傾向にあることがわかった。
論文参考訳（メタデータ） (2023-09-20T08:36:34Z)
Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。 2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。 3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-03-28T22:45:40Z)
Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文参考訳（メタデータ） (2022-08-25T16:55:15Z)
Learning in Audio-visual Context: A Review, Analysis, and New Perspective [88.40519011197144]
本調査は,聴覚・視覚領域の研究を体系的に整理し,分析することを目的とする。計算研究に影響を与えた重要な発見をいくつか紹介する。本稿では,音声視覚シーン理解の新しい視点を提案するとともに,音声視覚学習領域の今後の可能性について論じ,分析する。
論文参考訳（メタデータ） (2022-08-20T02:15:44Z)
Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文参考訳（メタデータ） (2021-12-08T10:30:52Z)
An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文参考訳（メタデータ） (2020-08-21T17:24:09Z)
Musical Word Embedding: Bridging the Gap between Listening Contexts and Music [5.89179309980335]
我々は、一般的なテキストデータと音楽固有のデータの組み合わせを用いて、単語の分散表現を訓練する。聴取コンテキストと楽曲の関連性の観点からシステムの評価を行った。
論文参考訳（メタデータ） (2020-07-23T06:42:45Z)
Unsupervised Cross-Modal Audio Representation Learning from Unstructured Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。 3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文参考訳（メタデータ） (2020-03-27T07:37:15Z)
Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文参考訳（メタデータ） (2020-01-14T13:11:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。