Fugu-MT 論文翻訳(概要): Embeddings as representation for symbolic music

論文の概要: Embeddings as representation for symbolic music

arxiv url: http://arxiv.org/abs/2005.09406v1
Date: Tue, 19 May 2020 13:04:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 13:02:46.636125
Title: Embeddings as representation for symbolic music
Title（参考訳）: 象徴音楽の表現としての埋め込み
Authors: Sebastian Garcia-Valencia
Abstract要約: 音楽の意味を含む方法で音楽のエンコードを可能にする表現技法は、コンピュータ音楽タスクのために訓練されたモデルの結果を改善する。本稿では,データセットの3つの異なるバリエーションから音符を表現し,モデルが有用な音楽パターンを捉えることができるかどうかを解析するための埋め込み実験を行う。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A representation technique that allows encoding music in a way that contains musical meaning would improve the results of any model trained for computer music tasks like generation of melodies and harmonies of better quality. The field of natural language processing has done a lot of work in finding a way to capture the semantic meaning of words and sentences, and word embeddings have successfully shown the capabilities for such a task. In this paper, we experiment with embeddings to represent musical notes from 3 different variations of a dataset and analyze if the model can capture useful musical patterns. To do this, the resulting embeddings are visualized in projections using the t-SNE technique.
Abstract（参考訳）: 音楽的意味を含む方法で音楽のエンコーディングを可能にする表現技術は、メロディの生成や品質の調和といったコンピュータ音楽タスクのために訓練されたモデルの結果を改善する。自然言語処理の分野は、単語と文の意味的意味を捉える方法を見つけるために多くの作業を行い、単語埋め込みは、そのようなタスクの能力を示すことに成功した。本稿では,データセットの3種類のバリエーションから音符を表現する埋め込みを実験し,モデルが有用な音楽パターンをキャプチャできるかどうかを解析する。これを実現するために、t-SNE技術を用いて、結果の埋め込みを投影に可視化する。

関連論文リスト

Large Language Models' Internal Perception of Symbolic Music [3.9901365062418317]
大規模言語モデル(LLM)は、自然言語における文字列間の関係のモデル化に優れている。本稿では,テキストのプロンプトからシンボリック音楽データを生成することで,LLMが音楽概念をどのように表現するかを検討する。
論文参考訳（メタデータ） (2025-07-17T05:48:45Z)
Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文参考訳（メタデータ） (2024-09-12T08:19:25Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
Natural Language Processing Methods for Symbolic Music Generation and Information Retrieval: a Survey [6.416887247454113]
シンボリック・ミュージック・ジェネレーションと情報検索研究に応用されたNLP手法について検討する。まず,自然言語の逐次表現から適応した記号音楽の表現について概説する。我々はこれらのモデル、特に深層学習モデルについて、異なるプリズムを通して記述し、音楽に特化されたメカニズムを強調した。
論文参考訳（メタデータ） (2024-02-27T12:48:01Z)
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文参考訳（メタデータ） (2022-11-21T07:19:17Z)
Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文参考訳（メタデータ） (2021-12-08T10:30:52Z)
Score Transformer: Generating Musical Score from Note-level Representation [2.3554584457413483]
音符レベルの表現を適切な音楽表記に変換するためにトランスフォーマーモデルを訓練する。また、モデルを扱うための効果的な表記レベルトークン表現についても検討する。
論文参考訳（メタデータ） (2021-12-01T09:08:01Z)
Sequence Generation using Deep Recurrent Networks and Embeddings: A study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文参考訳（メタデータ） (2020-12-02T14:19:19Z)
COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文参考訳（メタデータ） (2020-06-15T13:17:18Z)
Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文参考訳（メタデータ） (2020-04-20T17:53:46Z)
Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文参考訳（メタデータ） (2020-02-01T17:57:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。