論文の概要: Compound Word Transformer: Learning to Compose Full-Song Music over
Dynamic Directed Hypergraphs
- arxiv url: http://arxiv.org/abs/2101.02402v1
- Date: Thu, 7 Jan 2021 06:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 19:49:02.275367
- Title: Compound Word Transformer: Learning to Compose Full-Song Music over
Dynamic Directed Hypergraphs
- Title(参考訳): 複合語変換器:動的指向型ハイパーグラフによる全曲音楽合成学習
- Authors: Wen-Yi Hsiao, Jen-Yu Liu, Yin-Cheng Yeh, Yi-Hsuan Yang
- Abstract要約: 我々は、ノートタイプやメトリックタイプなどのトークンの種類を考慮に入れた概念的に異なるアプローチを提示します。
得られたモデルは動的有向ハイパーグラフの学習者と見なすことができることを示す。
実験では,最先端モデルと比較して,提案モデルが5~10倍高速に収束することを示す。
- 参考スコア(独自算出の注目度): 34.976342712112476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To apply neural sequence models such as the Transformers to music generation
tasks, one has to represent a piece of music by a sequence of tokens drawn from
a finite set of pre-defined vocabulary. Such a vocabulary usually involves
tokens of various types. For example, to describe a musical note, one needs
separate tokens to indicate the note's pitch, duration, velocity (dynamics),
and placement (onset time) along the time grid. While different types of tokens
may possess different properties, existing models usually treat them equally,
in the same way as modeling words in natural languages. In this paper, we
present a conceptually different approach that explicitly takes into account
the type of the tokens, such as note types and metric types. And, we propose a
new Transformer decoder architecture that uses different feed-forward heads to
model tokens of different types. With an expansion-compression trick, we
convert a piece of music to a sequence of compound words by grouping
neighboring tokens, greatly reducing the length of the token sequences. We show
that the resulting model can be viewed as a learner over dynamic directed
hypergraphs. And, we employ it to learn to compose expressive Pop piano music
of full-song length (involving up to 10K individual tokens per song), both
conditionally and unconditionally. Our experiment shows that, compared to
state-of-the-art models, the proposed model converges 5--10 times faster at
training (i.e., within a day on a single GPU with 11 GB memory), and with
comparable quality in the generated music.
- Abstract(参考訳): 音楽生成タスクにトランスフォーマなどのニューラルシーケンスモデルを適用するには、予め定義された語彙の有限集合から引き出されたトークン列によって楽曲を表現しなければならない。
このような語彙は通常、様々な種類のトークンを含む。
例えば、音符を記述するには、音符のピッチ、持続時間、速度(力学)、および時間グリッドに沿った配置(セット時間)を示すために、別々のトークンが必要である。
異なる種類のトークンは異なる性質を持つ可能性があるが、既存のモデルは通常、自然言語で単語をモデル化するのと同じように、それらを扱う。
本稿では,メモ型やメトリック型といったトークンの型を明示的に考慮した,概念的に異なるアプローチを提案する。
また,異なるタイプのトークンをモデル化するために異なるフィードフォワードヘッドを使用するトランスフォーマーデコーダアーキテクチャを提案する。
拡張圧縮方式では,隣接するトークンをグループ化して楽曲を複合語列に変換し,トークン列の長さを大幅に削減する。
得られたモデルは動的有向ハイパーグラフの学習者と見なすことができることを示す。
また,曲の長さ(曲ごとに最大10万個のトークンを含む)の表現力のあるポップピアノを条件付き・無条件で作曲することを学ぶ。
実験では、最先端モデルと比較して、トレーニング時の5~10倍の高速化(つまり11gbのメモリを持つシングルgpu上で1日以内)と、生成した音楽のクオリティが同等であることを示す。
関連論文リスト
- Toucan: Token-Aware Character Level Language Modeling [44.85590844938571]
トウカン(Toucan)は、文字レベルのモデルを拡張して「トウカン・アウェア(token-aware)」させる方法である。
言語モデルの性能を損なうことなく文字生成の大幅な高速化を示す。
我々のアプローチは、単一のアイテムとしてトークン化された長いシーケンスの量に繋がる。
論文 参考訳(メタデータ) (2023-11-15T00:57:51Z) - Learning Mutually Informed Representations for Characters and Subwords [29.43428615637264]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
本稿では,テキスト分類,エンティティ認識,POSタグ付けタスクについて評価する。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - Impact of time and note duration tokenizations on deep learning symbolic
music modeling [0.0]
共通トークン化手法を解析し、時間と音符の持続時間表現を実験する。
明示的な情報がタスクによってより良い結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2023-10-12T16:56:37Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Byte Pair Encoding for Symbolic Music [0.0]
Byte Pair 埋め込みは語彙サイズを増大させながらシーケンス長を著しく減少させる。
我々は、より表現力のあるトークンでそのようなモデルの埋め込み能力を活用し、その結果、より優れた結果と、生成および分類タスクにおける高速な推論の両方をもたらす。
ソースコードはGithubと同伴のウェブサイトで共有されている。
論文 参考訳(メタデータ) (2023-01-27T20:22:18Z) - Learning to Look Inside: Augmenting Token-Based Encoders with
Character-Level Information [29.633735942273997]
XRayEmbは、既存のトークンベースのモデルに文字レベルの情報を適合させる手法である。
我々は,XRayEmbの学習ベクトルを事前学習されたトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習されたトランスフォーマーアーキテクチャの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-08-01T08:09:26Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。