論文の概要: Musical Speech: A Transformer-based Composition Tool
- arxiv url: http://arxiv.org/abs/2108.01043v1
- Date: Mon, 2 Aug 2021 17:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 16:19:15.970793
- Title: Musical Speech: A Transformer-based Composition Tool
- Title(参考訳): 音楽音声:トランスフォーマーベースの作曲ツール
- Authors: Jason d'Eon, Sri Harsha Dumpala, Chandramouli Shama Sastry, Dani Oore
and Sageev Oore
- Abstract要約: このツールを使うと、ユーザーは自分の音声を使って音楽素材を生成できるが、録音した音声と結果の音楽との直接のつながりを聴くことができる。
ツールを利用してミュージシャンが制作した音楽の例を通して,パイプラインの有効性を解説する。
- 参考スコア(独自算出の注目度): 10.634870214944055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new compositional tool that will generate a
musical outline of speech recorded/provided by the user for use as a musical
building block in their compositions. The tool allows any user to use their own
speech to generate musical material, while still being able to hear the direct
connection between their recorded speech and the resulting music. The tool is
built on our proposed pipeline. This pipeline begins with speech-based signal
processing, after which some simple musical heuristics are applied, and finally
these pre-processed signals are passed through Transformer models trained on
new musical tasks. We illustrate the effectiveness of our pipeline -- which
does not require a paired dataset for training -- through examples of music
created by musicians making use of our tool.
- Abstract(参考訳): 本稿では,ユーザが録音/提供した音声の楽曲アウトラインを合成し,その楽曲に音楽ビルディングブロックとして用いるための新しい構成ツールを提案する。
このツールを使うと、ユーザーは自分の音声を使って音楽素材を生成できるが、録音した音声と結果の音楽との直接のつながりを聴くことができる。
このツールは、提案されたパイプライン上に構築されます。
このパイプラインは音声に基づく信号処理から始まり、その後いくつかの単純な音楽ヒューリスティックを適用し、最終的にこれらの前処理された信号を新しい音楽タスクで訓練されたトランスフォーマーモデルに渡す。
私たちは、トレーニング用のペアデータセットを必要としないパイプラインの有効性を、ツールを使用してミュージシャンが作成した音楽の例を通じて説明します。
関連論文リスト
- MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - InstrumentGen: Generating Sample-Based Musical Instruments From Text [3.4447129363520337]
本稿では,テキストプロンプトに基づくサンプルベース楽器の生成を目的とした,テキスト・ツー・ストラクチャメント・タスクを提案する。
本研究では,テキストプロジェクティブ・オーディオ・フレームワークを,楽器群,ソースタイプ,ピッチ(88キースペクトル全体),速度,共同テキスト/オーディオの埋め込みに拡張するモデルであるInstrumentGenを提案する。
論文 参考訳(メタデータ) (2023-11-07T20:45:59Z) - FM Tone Transfer with Envelope Learning [8.771755521263811]
トーントランスファー(トーントランスファー)は、音源をシンセサイザーで対向させ、音楽の形式を保ちながら音の音色を変換する新しい技法である。
音の多様性の低さや、過渡的および動的レンダリングの制限に関連するいくつかの欠点があり、リアルタイムなパフォーマンスの文脈における調音やフレーズ化の可能性を妨げていると我々は信じている。
論文 参考訳(メタデータ) (2023-10-07T14:03:25Z) - Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - Show Me the Instruments: Musical Instrument Retrieval from Mixture Audio [11.941510958668557]
これを「楽器検索」と呼ぶ。
本稿では,クエリーとして参照音楽の混合を用いて,所望の楽器を検索する手法を提案する。
提案モデルは,畳み込みニューラルネットワークに基づくシングルインスツルメンツとマルチインスツルメンツで構成されている。
論文 参考訳(メタデータ) (2022-11-15T07:32:39Z) - Setting the rhythm scene: deep learning-based drum loop generation from
arbitrary language cues [0.0]
言語キューの「ムード」を具現化した4ピースドラムパターンの2コンパスを生成する新しい手法を提案する。
我々は,このツールを電子音楽とオーディオヴィジュアルサウンドトラック制作のための作曲支援,あるいはライブ演奏のための即興ツールとして想定する。
このモデルのトレーニングサンプルを作成するため,各曲のコンセンサス・ドラムトラックを抽出する新たな手法を考案した。
論文 参考訳(メタデータ) (2022-09-20T21:53:35Z) - SpeechBrain: A General-Purpose Speech Toolkit [73.0404642815335]
SpeechBrainはオープンソースでオールインワンの音声ツールキットである。
ニューラル音声処理技術の研究開発を促進するために設計された。
幅広い音声ベンチマークにおいて、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-08T18:22:56Z) - Multi-Instrumentalist Net: Unsupervised Generation of Music from Body
Movements [20.627164135805852]
本研究では、楽器を演奏するミュージシャンの入力体の動きを取り入れ、教師なしの環境で音楽を生成する新しいシステムを提案する。
ログ・スペクトログラムから様々な楽器音楽の離散的な潜在表現を学習するパイプライン「Multi-instrumentalistNet」を構築した。
Midiは、パイプラインがビデオ内の楽器によって演奏される音楽の正確なコンテンツを生成するように、潜在空間をさらに調整できることを示しています。
論文 参考訳(メタデータ) (2020-12-07T06:54:10Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。