論文の概要: Crossing You in Style: Cross-modal Style Transfer from Music to Visual
Arts
- arxiv url: http://arxiv.org/abs/2009.08083v1
- Date: Thu, 17 Sep 2020 05:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 12:06:01.740479
- Title: Crossing You in Style: Cross-modal Style Transfer from Music to Visual
Arts
- Title(参考訳): cross you in style:音楽から視覚芸術へのクロスモーダルスタイル移行
- Authors: Cheng-Che Lee, Wan-Yi Lin, Yen-Ting Shih, Pei-Yi Patricia Kuo, Li Su
- Abstract要約: 音楽と視覚のスタイルの伝達は、創造性の実践において難しいが重要なクロスモーダル学習問題である。
音楽の可視化とスタイル伝達という2つのステップで,音楽と視覚の伝達問題を解く。
WikiArt-IMSLPは、西洋音楽の録音や、何十年にもわたってリストアップされた絵画を含むデータセットである。
- 参考スコア(独自算出の注目度): 11.96629917390208
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Music-to-visual style transfer is a challenging yet important cross-modal
learning problem in the practice of creativity. Its major difference from the
traditional image style transfer problem is that the style information is
provided by music rather than images. Assuming that musical features can be
properly mapped to visual contents through semantic links between the two
domains, we solve the music-to-visual style transfer problem in two steps:
music visualization and style transfer. The music visualization network
utilizes an encoder-generator architecture with a conditional generative
adversarial network to generate image-based music representations from music
data. This network is integrated with an image style transfer method to
accomplish the style transfer process. Experiments are conducted on
WikiArt-IMSLP, a newly compiled dataset including Western music recordings and
paintings listed by decades. By utilizing such a label to learn the semantic
connection between paintings and music, we demonstrate that the proposed
framework can generate diverse image style representations from a music piece,
and these representations can unveil certain art forms of the same era.
Subjective testing results also emphasize the role of the era label in
improving the perceptual quality on the compatibility between music and visual
content.
- Abstract(参考訳): 音楽と視覚のスタイルの伝達は、創造性の実践において難しいが重要なクロスモーダル学習問題である。
従来のイメージスタイル転送問題との大きな違いは、スタイル情報が画像ではなく音楽によって提供されることである。
2つのドメイン間の意味的リンクを通じて、音楽的特徴を視覚コンテンツに適切にマッピングできると仮定すると、音楽の可視化とスタイル転送という2つのステップで音楽-視覚間のスタイル転送問題を解決する。
音楽可視化ネットワークは、条件付き生成対向ネットワークを備えたエンコーダジェネレータアーキテクチャを使用して、音楽データから画像ベースの音楽表現を生成する。
このネットワークは、画像スタイル転送方法と統合され、スタイル転送処理を行う。
WikiArt-IMSLPは、西洋音楽の録音や数十年にわたる絵画を含む、新たにコンパイルされたデータセットである。
このようなラベルを用いて絵画と音楽のセマンティックな関係を学習することにより,提案手法が楽曲から多様なイメージスタイル表現を生成できることを実証し,同時代の特定の芸術形態を提示できることを示す。
主観的テストの結果は、音楽と視覚コンテンツの互換性に対する知覚的品質の改善におけるeraラベルの役割も強調している。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Vis2Mus: Exploring Multimodal Representation Mapping for Controllable
Music Generation [11.140337453072311]
視覚芸術の領域から音楽の領域への表現マッピングについて検討する。
我々は,深層音楽表現学習とユーザ学習を組み合わせた分析・解釈アプローチを採用する。
シンボリック音楽生成のための制御可能なインタフェースとしてVis2Musシステムをリリースする。
論文 参考訳(メタデータ) (2022-11-10T13:01:26Z) - Music Sentiment Transfer [77.99182201815763]
音楽の感情伝達は、感情伝達の高レベルな目的を音楽領域に適用しようとする。
ネットワークを利用するためには,音楽フォーマットとしてシンボル的MIDIデータを用いる。
その結果,音楽の時間的特性から,感情伝達の課題はイメージの感情伝達よりも難しいことが示唆された。
論文 参考訳(メタデータ) (2021-10-12T06:51:38Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z) - StyTr^2: Unbiased Image Style Transfer with Transformers [59.34108877969477]
イメージスタイル転送の目的は、オリジナルコンテンツを維持しながら、スタイル参照によってガイドされた芸術的特徴を持つ画像をレンダリングすることである。
従来のニューラルスタイルの転送法は通常バイアスを受けており、コンテントリークは、同じ参照画像でスタイル転送プロセスの何回かの実行によって観察することができる。
我々は、この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr2を提案する。
論文 参考訳(メタデータ) (2021-05-30T15:57:09Z) - Self-Supervised VQ-VAE For One-Shot Music Style Transfer [2.6381163133447836]
本稿ではベクトル量子化変分オートエンコーダ(VQ-VAE)の拡張に基づくワンショット音色変換法を提案する。
提案手法は,客観的な指標を用いて評価し,選択した基準線を上回り得ることを示す。
論文 参考訳(メタデータ) (2021-02-10T21:42:49Z) - Tr\"aumerAI: Dreaming Music with StyleGAN [2.578242050187029]
本稿では, ディープ・ミュージックの埋め込みをスタイルGANの埋め込みに直接マッピングするニューラル・ミュージック・ビジュアライザーを提案する。
アノテータは10秒の100曲のクリップを聴き、StyleGANが生成した例の中で音楽に合ったイメージを選択した。
生成した例は、音声と映像のマッピングが、あるレベルのセグメント内類似性とセグメント間異同を生じさせることを示している。
論文 参考訳(メタデータ) (2021-02-09T07:04:22Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。