論文の概要: Language Models are Drummers: Drum Composition with Natural Language
Pre-Training
- arxiv url: http://arxiv.org/abs/2301.01162v1
- Date: Tue, 3 Jan 2023 15:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 15:07:40.568939
- Title: Language Models are Drummers: Drum Composition with Natural Language
Pre-Training
- Title(参考訳): 言語モデルはドラママーである:自然言語事前学習によるドラム構成
- Authors: Li Zhang and Chris Callison-Burch
- Abstract要約: GPT3は,ドラム溝を合理的に生成することが可能であることを示す。
本稿では, GPT3 が生成するドラム溝を, 人手による演奏と比較し, 調整した構造評価法と解析手法を提案する。
- 参考スコア(独自算出の注目度): 29.50067313828806
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic music generation with artificial intelligence typically requires a
large amount of data which is hard to obtain for many less common genres and
musical instruments. To tackle this issue, we present ongoing work and
preliminary findings on the possibility for deep models to transfer knowledge
from language to music, by finetuning large language models pre-trained on a
massive text corpus on only hundreds of MIDI files of drum performances. We
show that by doing so, one of the largest, state-of-the-art models (GPT3) is
capable of generating reasonable drum grooves, while models that are not
pre-trained (Transformer) shows no such ability beyond naive repetition.
Evaluating generated music is a challenging task, more so is evaluating drum
grooves with little precedence in literature. Hence, we propose a tailored
structural evaluation method and analyze drum grooves produced by GPT3 compared
to those played by human professionals, exposing the strengths and weaknesses
of such generation by language-to-music transfer. Our findings suggest that
language-to-music transfer learning with large language models is viable and
promising.
- Abstract(参考訳): 人工知能による自動音楽生成は、通常、あまり一般的でないジャンルや楽器では入手が難しい大量のデータを必要とする。
そこで本研究では,ドラム演奏のMIDIファイル数百ファイルのみを用いて,大規模テキストコーパス上で事前学習した大規模言語モデルを微調整することにより,ディープモデルが言語から音楽へ知識を伝達する可能性について検討する。
以上の結果から, 既訓練でないモデル(Transformer)は, ナイーブ反復以上の能力は示さないが, 最先端モデル(GPT3)は合理的なドラム溝を生成できることが示唆された。
生成した音楽の評価は難しい課題であり、文献に優劣のないドラム溝の評価が重要である。
そこで本研究では,GPT3が生成するドラム溝を人手による演奏と比較し,その強度と弱点を言語間移動により明らかにする構造評価手法を提案する。
この結果から,大規模言語モデルを用いた言語間移動学習が実現可能で有望であることが示唆された。
関連論文リスト
- Rhyme-aware Chinese lyric generator based on GPT [1.2813386930534034]
大規模コーパスで事前訓練されたGPTは、プレーンテキストからリッチなセマンティックパターンを効果的にキャプチャすることができる。
しかし、歌詞を生成するために使われている既存の事前学習言語モデルは、歌詞にとって重要な韻律情報を考えることは滅多にない。
論文 参考訳(メタデータ) (2024-08-19T16:17:20Z) - Syllable-level lyrics generation from melody exploiting character-level
language model [14.851295355381712]
シンボリック・メロディから音節レベルの歌詞を生成するための微調整文字レベル言語モデルを提案する。
特に,言語モデルの言語知識を音節レベルのトランスフォーマー生成ネットワークのビームサーチプロセスに組み込む手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T02:53:29Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Interpreting Song Lyrics with an Audio-Informed Pre-trained Language
Model [12.19432397758502]
BART-fusionは歌詞や音楽音声から歌詞の解釈を生成する新しいモデルである。
我々は、音声表現を歌詞表現に組み込むために、モーダル・アテンション・モジュールを用いる。
付加的な音声情報によって、モデルが単語や音楽をよりよく理解できるようになることを示す。
論文 参考訳(メタデータ) (2022-08-24T17:07:37Z) - WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Incorporating Music Knowledge in Continual Dataset Augmentation for
Music Generation [69.06413031969674]
Aug-Genは、リソース制約のあるドメインでトレーニングされた任意の音楽生成システムに対するデータセット拡張の方法である。
我々は、Aug-Gen をトランスフォーマーベースのコラール生成に J.S. Bach のスタイルで適用し、これによりより長いトレーニングが可能となり、より優れた生成出力が得られることを示す。
論文 参考訳(メタデータ) (2020-06-23T21:06:15Z) - SongNet: Rigid Formats Controlled Text Generation [51.428634666559724]
この問題に対処するために,SongNetというシンプルでエレガントなフレームワークを提案する。
フレームワークのバックボーンは、Transformerベースの自動回帰言語モデルである。
事前学習および微調整のフレームワークは、生成品質をさらに向上するために設計されている。
論文 参考訳(メタデータ) (2020-04-17T01:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。