論文の概要: Compound Word Transformer: Learning to Compose Full-Song Music over
Dynamic Directed Hypergraphs
- arxiv url: http://arxiv.org/abs/2101.02402v1
- Date: Thu, 7 Jan 2021 06:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 19:49:02.275367
- Title: Compound Word Transformer: Learning to Compose Full-Song Music over
Dynamic Directed Hypergraphs
- Title(参考訳): 複合語変換器:動的指向型ハイパーグラフによる全曲音楽合成学習
- Authors: Wen-Yi Hsiao, Jen-Yu Liu, Yin-Cheng Yeh, Yi-Hsuan Yang
- Abstract要約: 我々は、ノートタイプやメトリックタイプなどのトークンの種類を考慮に入れた概念的に異なるアプローチを提示します。
得られたモデルは動的有向ハイパーグラフの学習者と見なすことができることを示す。
実験では,最先端モデルと比較して,提案モデルが5~10倍高速に収束することを示す。
- 参考スコア(独自算出の注目度): 34.976342712112476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To apply neural sequence models such as the Transformers to music generation
tasks, one has to represent a piece of music by a sequence of tokens drawn from
a finite set of pre-defined vocabulary. Such a vocabulary usually involves
tokens of various types. For example, to describe a musical note, one needs
separate tokens to indicate the note's pitch, duration, velocity (dynamics),
and placement (onset time) along the time grid. While different types of tokens
may possess different properties, existing models usually treat them equally,
in the same way as modeling words in natural languages. In this paper, we
present a conceptually different approach that explicitly takes into account
the type of the tokens, such as note types and metric types. And, we propose a
new Transformer decoder architecture that uses different feed-forward heads to
model tokens of different types. With an expansion-compression trick, we
convert a piece of music to a sequence of compound words by grouping
neighboring tokens, greatly reducing the length of the token sequences. We show
that the resulting model can be viewed as a learner over dynamic directed
hypergraphs. And, we employ it to learn to compose expressive Pop piano music
of full-song length (involving up to 10K individual tokens per song), both
conditionally and unconditionally. Our experiment shows that, compared to
state-of-the-art models, the proposed model converges 5--10 times faster at
training (i.e., within a day on a single GPU with 11 GB memory), and with
comparable quality in the generated music.
- Abstract(参考訳): 音楽生成タスクにトランスフォーマなどのニューラルシーケンスモデルを適用するには、予め定義された語彙の有限集合から引き出されたトークン列によって楽曲を表現しなければならない。
このような語彙は通常、様々な種類のトークンを含む。
例えば、音符を記述するには、音符のピッチ、持続時間、速度(力学)、および時間グリッドに沿った配置(セット時間)を示すために、別々のトークンが必要である。
異なる種類のトークンは異なる性質を持つ可能性があるが、既存のモデルは通常、自然言語で単語をモデル化するのと同じように、それらを扱う。
本稿では,メモ型やメトリック型といったトークンの型を明示的に考慮した,概念的に異なるアプローチを提案する。
また,異なるタイプのトークンをモデル化するために異なるフィードフォワードヘッドを使用するトランスフォーマーデコーダアーキテクチャを提案する。
拡張圧縮方式では,隣接するトークンをグループ化して楽曲を複合語列に変換し,トークン列の長さを大幅に削減する。
得られたモデルは動的有向ハイパーグラフの学習者と見なすことができることを示す。
また,曲の長さ(曲ごとに最大10万個のトークンを含む)の表現力のあるポップピアノを条件付き・無条件で作曲することを学ぶ。
実験では、最先端モデルと比較して、トレーニング時の5~10倍の高速化(つまり11gbのメモリを持つシングルgpu上で1日以内)と、生成した音楽のクオリティが同等であることを示す。
関連論文リスト
- ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - Toucan: Token-Aware Character Level Language Modeling [44.85590844938571]
トウカン(Toucan)は、文字レベルのモデルを拡張して「トウカン・アウェア(token-aware)」させる方法である。
言語モデルの性能を損なうことなく文字生成の大幅な高速化を示す。
我々のアプローチは、単一のアイテムとしてトークン化された長いシーケンスの量に繋がる。
論文 参考訳(メタデータ) (2023-11-15T00:57:51Z) - Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - Impact of time and note duration tokenizations on deep learning symbolic
music modeling [0.0]
共通トークン化手法を解析し、時間と音符の持続時間表現を実験する。
明示的な情報がタスクによってより良い結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2023-10-12T16:56:37Z) - Byte Pair Encoding for Symbolic Music [0.0]
Byte Pair 埋め込みは語彙サイズを増大させながらシーケンス長を著しく減少させる。
我々は、より表現力のあるトークンでそのようなモデルの埋め込み能力を活用し、その結果、より優れた結果と、生成および分類タスクにおける高速な推論の両方をもたらす。
ソースコードはGithubと同伴のウェブサイトで共有されている。
論文 参考訳(メタデータ) (2023-01-27T20:22:18Z) - Learning to Look Inside: Augmenting Token-Based Encoders with
Character-Level Information [29.633735942273997]
XRayEmbは、既存のトークンベースのモデルに文字レベルの情報を適合させる手法である。
我々は,XRayEmbの学習ベクトルを事前学習されたトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習されたトランスフォーマーアーキテクチャの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-08-01T08:09:26Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。