論文の概要: Conditional Vector Graphics Generation for Music Cover Images
- arxiv url: http://arxiv.org/abs/2205.07301v1
- Date: Sun, 15 May 2022 14:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 18:02:12.264139
- Title: Conditional Vector Graphics Generation for Music Cover Images
- Title(参考訳): 音楽カバー画像のための条件ベクトルグラフィックス生成
- Authors: Valeria Efimova, Ivan Jarsky, Ilya Bizyaev and Andrey Filchenkov
- Abstract要約: 音楽のカバーイメージは、インターネットストリーミングサービスと印刷標準の要件を満たすべきである。
曲を反映し,単純な幾何学的対象からなるベクトル画像として音楽被覆を生成するために,CoverGANと呼ばれるGANアルゴリズムを提案する。
CoverGANが検出したパターンの意義は、生成したカバー画像と音楽トラックとの対応性から評価されている。
- 参考スコア(独自算出の注目度): 4.258673477256579
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative Adversarial Networks (GAN) have motivated a rapid growth of the
domain of computer image synthesis. As almost all the existing image synthesis
algorithms consider an image as a pixel matrix, the high-resolution image
synthesis is complicated.A good alternative can be vector images. However, they
belong to the highly sophisticated parametric space, which is a restriction for
solving the task of synthesizing vector graphics by GANs. In this paper, we
consider a specific application domain that softens this restriction
dramatically allowing the usage of vector image synthesis.
Music cover images should meet the requirements of Internet streaming
services and printing standards, which imply high resolution of graphic
materials without any additional requirements on the content of such images.
Existing music cover image generation services do not analyze tracks
themselves; however, some services mostly consider only genre tags. To generate
music covers as vector images that reflect the music and consist of simple
geometric objects, we suggest a GAN-based algorithm called CoverGAN. The
assessment of resulting images is based on their correspondence to the music
compared with AttnGAN and DALL-E text-to-image generation according to title or
lyrics. Moreover, the significance of the patterns found by CoverGAN has been
evaluated in terms of the correspondence of the generated cover images to the
musical tracks. Listeners evaluate the music covers generated by the proposed
algorithm as quite satisfactory and corresponding to the tracks. Music cover
images generation code and demo are available at
https://github.com/IzhanVarsky/CoverGAN.
- Abstract(参考訳): GAN(Generative Adversarial Networks)は、コンピュータ画像合成の領域を急速に成長させてきた。
既存のほとんどの画像合成アルゴリズムは画像をピクセル行列とみなしているため、高分解能画像合成は複雑であり、ベクター画像がよい。
しかし、それらは高度に洗練されたパラメトリック空間に属しており、これはGANによるベクトルグラフィックスの合成の課題を解決するための制約である。
本稿では,この制限を劇的に緩和し,ベクトル画像合成を利用できる特定のアプリケーション領域について考察する。
音楽のカバーイメージは、インターネットのストリーミングサービスや印刷規格の要件を満たすべきである。
既存の音楽カバー画像生成サービスは、トラック自体を解析しないが、ジャンルタグのみを考慮するサービスもある。
楽曲を反映し,単純な幾何学的対象からなるベクトル画像として音楽被覆を生成するために,CoverGANと呼ばれるGANアルゴリズムを提案する。
その結果,AttnGAN や DALL-E のテキスト・ツー・イメージ生成をタイトルや歌詞で比較した場合と比較して,画像の評価は音楽との対応に基づく。
さらに、CoverGANが検出したパターンの意義を、生成されたカバー画像と音楽トラックとの対応性の観点から評価した。
聴取者は提案アルゴリズムが生成した楽曲のカバーを、非常に満足し、トラックに対応するものとして評価する。
music cover images generation code and demoはhttps://github.com/izhanvarsky/covergan.comから入手できる。
関連論文リスト
- Art2Mus: Bridging Visual Arts and Music through Cross-Modal Generation [8.185890043443601]
我々は$mathcalAtextitrt2mathcalMtextitus$を紹介した。
実験の結果、$mathcalAtextitrt2mathcalMtextitus$は入力刺激に共鳴する音楽を生成することができることが示された。
論文 参考訳(メタデータ) (2024-10-07T10:48:08Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - Audio-guided Album Cover Art Generation with Genetic Algorithms [4.189054768366433]
音声特徴によってガイドされたカバーアートを生成するための新しいディープラーニングフレームワークを提案する。
VQGAN-CLIPにインスパイアされた当社のアプローチは,再トレーニングを必要とせずに個々のコンポーネントを簡単に置き換えることができるため,非常に柔軟である。
我々のフレームワークは、ほとんどのジャンルで適切なカバーアートを生成でき、視覚的特徴がオーディオ機能の変化に適応していることがわかりました。
論文 参考訳(メタデータ) (2022-07-14T18:41:00Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - ReGO: Reference-Guided Outpainting for Scenery Image [82.21559299694555]
生成的敵対学習は、与えられた画像に対して意味的一貫したコンテンツを生成することによって、画像の画質を向上した。
本研究は, 近隣の画素を借用することにより, テクスチャに富んだ結果を合成する原理について検討する。
生成した部品のスタイルが参照画像の影響を受けないようにするために,ReGOを増強し,スタイル一貫性のある結果を合成するスタイルランキングの損失が提案されている。
論文 参考訳(メタデータ) (2021-06-20T02:34:55Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。