Fugu-MT 論文翻訳(概要): Exploring Softly Masked Language Modelling for Controllable Symbolic Music Generation

論文の概要: Exploring Softly Masked Language Modelling for Controllable Symbolic Music Generation

arxiv url: http://arxiv.org/abs/2305.03530v1
Date: Fri, 5 May 2023 13:37:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-08 13:52:32.117250
Title: Exploring Softly Masked Language Modelling for Controllable Symbolic Music Generation
Title（参考訳）: 制御可能なシンボリック音楽生成のためのソフトマスキング言語モデリングの検討
Authors: Nicolas Jonason, Bob L.T. Sturm
Abstract要約: 本論文は、ソフトメイド言語モデリングを音楽生成に適用する初期の研究について述べる。コンバータアーキテクチャを用いた制約付きシンボリック・ミュージック・ジェネレーションにSMLMを適用した結果を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This document presents some early explorations of applying Softly Masked Language Modelling (SMLM) to symbolic music generation. SMLM can be seen as a generalisation of masked language modelling (MLM), where instead of each element of the input set being either known or unknown, elements can be partly known. We demonstrate some results of applying SMLM to constrained symbolic music generation using a transformer encoder architecture. Several audio examples are available at https://erl-j.github.io/smlm-web-supplement/
Abstract（参考訳）: 本論文は,SMLM(Softly Masked Language Modelling)を記号的音楽生成に適用する初期の研究について述べる。 SMLMはマスク言語モデリング(MLM)の一般化と見なすことができ、入力集合の各要素が既知のか未知である代わりに、要素が部分的に知られている。変換器エンコーダアーキテクチャを用いた制約付きシンボリック音楽生成にSMLMを適用した結果を示す。いくつかのオーディオサンプルがhttps://erl-j.github.io/smlm-web-supplement/で入手できる。

関連論文リスト

Large Language Models' Internal Perception of Symbolic Music [3.9901365062418317]
大規模言語モデル(LLM)は、自然言語における文字列間の関係のモデル化に優れている。本稿では,テキストのプロンプトからシンボリック音楽データを生成することで,LLMが音楽概念をどのように表現するかを検討する。
論文参考訳（メタデータ） (2025-07-17T05:48:45Z)
SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning [50.98341607245458]
Masked Video Modelingはビデオ自己教師型学習(SSL)に有効なパラダイムである本稿では,空間的意味論と動き的意味論を融合させることにより,SMILEと呼ばれるビデオ表現学習のための新しいSSL手法を提案する。我々は、自然な映像データを必要とせず、強力な映像表現を学習できる、新しい自己教師型ビデオ学習パラダイムを確立した。
論文参考訳（メタデータ） (2025-04-01T08:20:55Z)
Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [6.688680877428467]
そこで我々は,Gloss-free Multimodal Sign Language Translationフレームワークを提案する。マルチモーダルな大言語モデルを用いて手話コンポーネントの詳細なテキスト記述を生成する。提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-25T09:01:41Z)
OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。 MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文参考訳（メタデータ） (2024-10-10T15:18:19Z)
What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models [6.313516199029267]
音声キャプション/分類実験を通じて、音声MLLMは、音声キャプションを生成する際に、LLMのテキストベースの推論を完全に活用できないことを示す。また,LLMからオーディオエンコーダへの推論経路を分離するなど,聴覚情報とテキスト情報を別々に表現するMLLMが原因である可能性についても検討する。
論文参考訳（メタデータ） (2024-06-07T03:55:00Z)
Auto-Encoding Morph-Tokens for Multimodal LLM [151.2618346912529]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文参考訳（メタデータ） (2024-05-03T08:43:06Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文参考訳（メタデータ） (2022-05-10T13:08:49Z)
Universal Sentence Representation Learning with Conditional Masked Language Model [7.334766841801749]
文表現を効果的に学習するための条件付きマスク言語モデリング(M)を提案する。我々の英語CMLMモデルは,SentEvalの最先端性能を実現する。完全に教師なしの学習方法として、CMLMは幅広い言語やドメインに便利に拡張できます。
論文参考訳（メタデータ） (2020-12-28T18:06:37Z)
Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文参考訳（メタデータ） (2020-08-06T18:25:18Z)
Probabilistically Masked Language Model Capable of Autoregressive Generation in Arbitrary Word Order [32.71489048856101]
マスケード言語モデルと自己回帰言語モデルは2種類の言語モデルである。本稿では,確率的マスキングモデル (PMLM) と呼ばれるマスキング言語モデルに対する確率論的マスキング手法を提案する。我々は, u-PMLM が自己回帰型置換言語モデルと等価であることを証明した。
論文参考訳（メタデータ） (2020-04-24T07:38:19Z)
UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文参考訳（メタデータ） (2020-02-28T15:28:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。