論文の概要: GANterpretations
- arxiv url: http://arxiv.org/abs/2011.05158v1
- Date: Fri, 6 Nov 2020 19:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 04:32:01.612261
- Title: GANterpretations
- Title(参考訳): GANterpretations
- Authors: Pablo Samuel Castro
- Abstract要約: 本稿では、GANのパワーを用いて、音声録音に付随する映像を自動的に生成する手法を提案する。
これにより、ミュージシャンはマルチモーダルなクリエイティブな表現の新たな形態を探求することができる。
- 参考スコア(独自算出の注目度): 16.021870805255734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the introduction of Generative Adversarial Networks (GANs) [Goodfellow
et al., 2014] there has been a regular stream of both technical advances (e.g.,
Arjovsky et al. [2017]) and creative uses of these generative models (e.g.,
[Karras et al., 2019, Zhu et al., 2017, Jin et al., 2017]). In this work we
propose an approach for using the power of GANs to automatically generate
videos to accompany audio recordings by aligning to spectral properties of the
recording. This allows musicians to explore new forms of multi-modal creative
expression, where musical performance can induce an AI-generated musical video
that is guided by said performance, as well as a medium for creating a visual
narrative to follow a storyline (similar to what was proposed by Frosst and
Kereliuk [2019]).
- Abstract(参考訳): Generative Adversarial Networks (GANs) [Goodfellow et al., 2014] の導入以来、これらの生成モデル(例えば、Karras et al., 2019, Zhu et al., 2017, Jin et al., 2017)の創造的利用と技術進歩(例えば、Arjovsky et al. [2017])の両方が定期的に流れてきた。
本研究では,gansのパワーを生かして,録音のスペクトル特性に合わせることにより,音声記録に付随する映像を自動的に生成する手法を提案する。
これによりミュージシャンは、その演奏によって誘導されるAI生成の音楽ビデオを、ストーリーラインに従うためのビジュアルな物語を作るための媒体(FrosstとKeleliuk(2019年)が提案したものと似ている)を、新しい形態のマルチモーダルなクリエイティブな表現を探求することができる。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。
ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文 参考訳(メタデータ) (2023-05-11T06:26:41Z) - Generative Disco: Text-to-Video Generation for Music Visualization [9.53563436241774]
我々は,大規模な言語モデルとテキスト・ツー・ビデオ生成による音楽視覚化を支援する生成AIシステムであるGenerative Discoを紹介する。
このシステムは、ユーザーが音楽の開始と終了を知らせるプロンプトを見つけ出し、それらの間を音楽のビートに補間する。
色、時間、主題、スタイルの変化を表現するトランジションと、ビデオが主題に焦点を合わせるのに役立つホールドという、これらの生成されたビデオを改善するためのデザインパターンを紹介します。
論文 参考訳(メタデータ) (2023-04-17T18:44:00Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Can GAN originate new electronic dance music genres? -- Generating novel
rhythm patterns using GAN with Genre Ambiguity Loss [0.0]
本稿では,音楽生成,特に電子舞踊音楽のリズムパターンに着目し,深層学習を用いて新しいリズムを生成できるかを論じる。
我々は、GAN(Generative Adversarial Networks)のフレームワークを拡張し、データセット固有の分布から分岐することを奨励する。
提案したGANは、音楽リズムのように聞こえるリズムパターンを生成できるが、トレーニングデータセットのどのジャンルにも属さないことを示す。
論文 参考訳(メタデータ) (2020-11-25T23:22:12Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。