論文の概要: FLUX that Plays Music
- arxiv url: http://arxiv.org/abs/2409.00587v1
- Date: Sun, 1 Sep 2024 02:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 13:43:27.572282
- Title: FLUX that Plays Music
- Title(参考訳): 音楽を演奏するFLUX
- Authors: Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang,
- Abstract要約: 本稿では,FluxMusicと呼ばれるテキストから音楽への変換のための拡散型整流変換器の簡易拡張について検討する。
まず、二重テキスト-音楽ストリームに独立して注意を向け、続いて1つの音楽ストリームを積み重ねて、通知されたパッチ予測を行う。
- 参考スコア(独自算出の注目度): 33.92910068664058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores a simple extension of diffusion-based rectified flow Transformers for text-to-music generation, termed as FluxMusic. Generally, along with design in advanced Flux\footnote{https://github.com/black-forest-labs/flux} model, we transfers it into a latent VAE space of mel-spectrum. It involves first applying a sequence of independent attention to the double text-music stream, followed by a stacked single music stream for denoised patch prediction. We employ multiple pre-trained text encoders to sufficiently capture caption semantic information as well as inference flexibility. In between, coarse textual information, in conjunction with time step embeddings, is utilized in a modulation mechanism, while fine-grained textual details are concatenated with the music patch sequence as inputs. Through an in-depth study, we demonstrate that rectified flow training with an optimized architecture significantly outperforms established diffusion methods for the text-to-music task, as evidenced by various automatic metrics and human preference evaluations. Our experimental data, code, and model weights are made publicly available at: \url{https://github.com/feizc/FluxMusic}.
- Abstract(参考訳): 本稿では,FluxMusicと呼ばれるテキストから音楽への変換のための拡散型整流変換器の簡易拡張について検討する。
一般に、先進的な Flux\footnote{https://github.com/black-forest-labs/flux} モデルの設計とともに、メルスペクトルの潜在VAE空間に転送する。
まず、二重テキスト-音楽ストリームに独立して注意を向け、続いて1つの音楽ストリームを積み重ねて、通知されたパッチ予測を行う。
複数の事前訓練されたテキストエンコーダを用いて、キャプションの意味情報と推論の柔軟性を十分にキャプチャする。
間において、粗いテキスト情報を時間ステップ埋め込みと共に変調機構に利用し、きめ細かいテキストの詳細を音楽パッチシーケンスに入力として結合する。
詳細な研究を通じて、最適化されたアーキテクチャによる整流流訓練は、様々な自動メトリクスや人間の嗜好評価によって実証されるように、テキストから音楽へのタスクに対する確立された拡散法を著しく上回っていることを実証した。
実験データ、コード、モデルの重み付けは、次のように公開されています。
関連論文リスト
- MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - End-to-end Piano Performance-MIDI to Score Conversion with Transformers [26.900974153235456]
実世界のピアノ演奏-MIDIファイルから直接詳細な楽譜を構築するエンド・ツー・エンドのディープ・ラーニング・アプローチを提案する。
シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。
また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
論文 参考訳(メタデータ) (2024-09-30T20:11:37Z) - Text Conditioned Symbolic Drumbeat Generation using Latent Diffusion Models [0.0]
本研究では,ラテント拡散モデル(LDM)を用いたドラムビート生成のためのテキスト条件付き手法を提案する。
マルチモーダルネットワーク内のコントラスト学習を通じてテキストとドラムのエンコーダを事前学習することにより,テキストと音楽のモダリティを密に調整する。
生成したドラムビートは新規で、即興のテキストに順応し、人間の音楽家によるものと同等の品質を示す。
論文 参考訳(メタデータ) (2024-08-05T13:23:05Z) - YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。
本稿では、マルチストラクチャメント音楽の書き起こし強化のためのモデルの組であるYourMT3+を紹介する。
実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文 参考訳(メタデータ) (2024-07-05T19:18:33Z) - Compositional Video Generation as Flow Equalization [72.88137795439407]
大規模テキスト・トゥ・ビデオ拡散モデル(T2V)は、最近、自然言語記述を驚くべき、フォトリアリスティックなビデオに変換する前例のない能力を示した。
有望な結果にもかかわらず、これらのモデルは複数の概念と行動の間の複雑な構成的相互作用を完全に把握するのに苦労する。
我々は、すべての概念が適切に表現されることを明確に保証する合成ビデオ生成のための一般的なフレームワークであるbftextVicoを紹介する。
論文 参考訳(メタデータ) (2024-06-10T16:27:47Z) - Learning Music Sequence Representation from Text Supervision [31.90882003611554]
音楽表現学習は、その複雑な人間関係の概念が数値信号の列に含まれることで、非常に難しい。
本稿では,新しいテキスト・スーパービジョン事前学習手法,すなわちM.M.を提案する。
最先端のパフォーマンスを達成するためには、事前トレーニングデータの0.056%しか必要としない。
論文 参考訳(メタデータ) (2023-05-31T07:15:06Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。