論文の概要: Audio-guided Album Cover Art Generation with Genetic Algorithms
- arxiv url: http://arxiv.org/abs/2207.07162v1
- Date: Thu, 14 Jul 2022 18:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 02:22:26.661370
- Title: Audio-guided Album Cover Art Generation with Genetic Algorithms
- Title(参考訳): 遺伝的アルゴリズムを用いたオーディオ誘導アルバムカバーアート生成
- Authors: James Marien, Sam Leroux, Bart Dhoedt, Cedric De Boom
- Abstract要約: 音声特徴によってガイドされたカバーアートを生成するための新しいディープラーニングフレームワークを提案する。
VQGAN-CLIPにインスパイアされた当社のアプローチは,再トレーニングを必要とせずに個々のコンポーネントを簡単に置き換えることができるため,非常に柔軟である。
我々のフレームワークは、ほとんどのジャンルで適切なカバーアートを生成でき、視覚的特徴がオーディオ機能の変化に適応していることがわかりました。
- 参考スコア(独自算出の注目度): 4.189054768366433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over 60,000 songs are released on Spotify every day, and the competition for
the listener's attention is immense. In that regard, the importance of
captivating and inviting cover art cannot be underestimated, because it is
deeply entangled with a song's character and the artist's identity, and remains
one of the most important gateways to lead people to discover music. However,
designing cover art is a highly creative, lengthy and sometimes expensive
process that can be daunting, especially for non-professional artists. For this
reason, we propose a novel deep-learning framework to generate cover art guided
by audio features. Inspired by VQGAN-CLIP, our approach is highly flexible
because individual components can easily be replaced without the need for any
retraining. This paper outlines the architectural details of our models and
discusses the optimization challenges that emerge from them. More specifically,
we will exploit genetic algorithms to overcome bad local minima and adversarial
examples. We find that our framework can generate suitable cover art for most
genres, and that the visual features adapt themselves to audio feature changes.
Given these results, we believe that our framework paves the road for
extensions and more advanced applications in audio-guided visual generation
tasks.
- Abstract(参考訳): spotifyでは毎日6万曲以上の楽曲がリリースされており、リスナーの注目を集める競争は激しさを増している。
その点において、カバーアートのキャプティベーションと誘惑の重要性は、歌のキャラクターとアーティストのアイデンティティと深く絡み合っており、人々が音楽を発見するためのもっとも重要な入り口の1つとして残っているため、過小評価できない。
しかし、カバーアートのデザインは非常に創造的で、長く、時には高価なプロセスであり、特に非プロのアーティストにとっては厄介なものである。
そこで本研究では,音声特徴に導かれたカバーアートを生成するための新しいディープラーニングフレームワークを提案する。
VQGAN-CLIPにインスパイアされた当社のアプローチは,再トレーニングを必要とせずに個々のコンポーネントを簡単に置き換えることができるため,非常に柔軟である。
本稿では,そのアーキテクチャの詳細を概説し,それらから生じる最適化課題について論じる。
より具体的には、遺伝子アルゴリズムを利用して、悪質なローカルミニマと敵対的な例を克服する。
我々のフレームワークは、ほとんどのジャンルで適切なカバーアートを生成でき、視覚的特徴は、オーディオ機能の変化に適応する。
これらの結果を踏まえ、我々のフレームワークは、音声誘導視覚生成タスクにおける拡張とより高度な応用の道を開くと信じている。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation
and Editing via Content-based Controls [6.747653154871061]
コントロール可能な音楽生成は、人間-AI音楽の共同創造において重要な役割を担っている。
LLM(Large Language Models)は高品質な音楽を生成できることを示しており、自動回帰生成に重点を置いているため、音楽編集タスクにおける有用性を制限している。
そこで本稿では,自動回帰言語モデルによる楽曲の塗り替え作業へのシームレス対応を実現するための,新しい条件付きファインチューニング(PEFT)手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T19:00:01Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Generative Disco: Text-to-Video Generation for Music Visualization [9.53563436241774]
我々は,大規模な言語モデルとテキスト・ツー・ビデオ生成による音楽視覚化を支援する生成AIシステムであるGenerative Discoを紹介する。
このシステムは、ユーザーが音楽の開始と終了を知らせるプロンプトを見つけ出し、それらの間を音楽のビートに補間する。
色、時間、主題、スタイルの変化を表現するトランジションと、ビデオが主題に焦点を合わせるのに役立つホールドという、これらの生成されたビデオを改善するためのデザインパターンを紹介します。
論文 参考訳(メタデータ) (2023-04-17T18:44:00Z) - Conditional Vector Graphics Generation for Music Cover Images [4.258673477256579]
音楽のカバーイメージは、インターネットストリーミングサービスと印刷標準の要件を満たすべきである。
曲を反映し,単純な幾何学的対象からなるベクトル画像として音楽被覆を生成するために,CoverGANと呼ばれるGANアルゴリズムを提案する。
CoverGANが検出したパターンの意義は、生成したカバー画像と音楽トラックとの対応性から評価されている。
論文 参考訳(メタデータ) (2022-05-15T14:43:03Z) - CtlGAN: Few-shot Artistic Portraits Generation with Contrastive Transfer
Learning [77.27821665339492]
CtlGANは、新しいコントラッシブ・トランスファー学習戦略を備えた、数発のアート・ポートレート生成モデルである。
ソースドメインで事前訓練したStyleGANを,対象の芸術領域に適応させる。
実面をZ+空間に埋め込んだ新しいエンコーダを提案し,適応型デコーダに対処するためのデュアルパストレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-16T13:28:17Z) - The Piano Inpainting Application [0.0]
生成アルゴリズムは、提供された制御の制限、推論の禁止、ミュージシャンの生成への統合の欠如のために、依然としてアーティストによって広く使われていない。
本稿では,ピアノ演奏のインペインティングに着目した生成モデルであるピアノ・インペインティング・アプリケーション(PIA)について述べる。
論文 参考訳(メタデータ) (2021-07-13T09:33:11Z) - Towards Cover Song Detection with Siamese Convolutional Neural Networks [0.4737991126491218]
私たちは、数万のカバーソングオーディオクリップでニューラルネットワークをトレーニングし、保留のセットでそれをテストします。
最小バッチの65%の平均精度@1をランダムな推測の10倍の精度で取得する。
論文 参考訳(メタデータ) (2020-05-20T18:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。