論文の概要: GANterpretations
- arxiv url: http://arxiv.org/abs/2011.05158v1
- Date: Fri, 6 Nov 2020 19:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 04:32:01.612261
- Title: GANterpretations
- Title(参考訳): GANterpretations
- Authors: Pablo Samuel Castro
- Abstract要約: 本稿では、GANのパワーを用いて、音声録音に付随する映像を自動的に生成する手法を提案する。
これにより、ミュージシャンはマルチモーダルなクリエイティブな表現の新たな形態を探求することができる。
- 参考スコア(独自算出の注目度): 16.021870805255734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the introduction of Generative Adversarial Networks (GANs) [Goodfellow
et al., 2014] there has been a regular stream of both technical advances (e.g.,
Arjovsky et al. [2017]) and creative uses of these generative models (e.g.,
[Karras et al., 2019, Zhu et al., 2017, Jin et al., 2017]). In this work we
propose an approach for using the power of GANs to automatically generate
videos to accompany audio recordings by aligning to spectral properties of the
recording. This allows musicians to explore new forms of multi-modal creative
expression, where musical performance can induce an AI-generated musical video
that is guided by said performance, as well as a medium for creating a visual
narrative to follow a storyline (similar to what was proposed by Frosst and
Kereliuk [2019]).
- Abstract(参考訳): Generative Adversarial Networks (GANs) [Goodfellow et al., 2014] の導入以来、これらの生成モデル(例えば、Karras et al., 2019, Zhu et al., 2017, Jin et al., 2017)の創造的利用と技術進歩(例えば、Arjovsky et al. [2017])の両方が定期的に流れてきた。
本研究では,gansのパワーを生かして,録音のスペクトル特性に合わせることにより,音声記録に付随する映像を自動的に生成する手法を提案する。
これによりミュージシャンは、その演奏によって誘導されるAI生成の音楽ビデオを、ストーリーラインに従うためのビジュアルな物語を作るための媒体(FrosstとKeleliuk(2019年)が提案したものと似ている)を、新しい形態のマルチモーダルなクリエイティブな表現を探求することができる。
関連論文リスト
- Audio Processing using Pattern Recognition for Music Genre Classification [0.0]
本研究は,GTZANデータセットを用いた音楽ジャンル分類における機械学習手法の適用について検討する。
パーソナライズされた音楽レコメンデーションの需要が高まる中、私たちは、ブルース、クラシック、ジャズ、ヒップホップ、カントリーという5つのジャンルの分類に注力しました。
ANNモデルは最高の性能を示し、検証精度は92.44%に達した。
論文 参考訳(メタデータ) (2024-10-19T05:44:05Z) - DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation [50.66658181705527]
本稿では,動的長大映像のオール・アット・オンス生成を可能にするフレームワークであるDAWNを提案する。
DAWNは,(1)潜在動作空間における音声駆動型顔力学生成,(2)音声駆動型頭部ポーズと点滅生成の2つの主要成分から構成される。
本手法は, 唇の動きを正確に表現し, 自然なポーズ・瞬き動作を特徴とする実写映像と鮮明な映像を生成する。
論文 参考訳(メタデータ) (2024-10-17T16:32:36Z) - TeaserGen: Generating Teasers for Long Documentaries [59.8220642722399]
1,269の文書集であるDocumentaryNetをティーザーと組み合わせて紹介する。
長文からティーザーを生成するための新しい2段階システムを提案する。
論文 参考訳(メタデータ) (2024-10-08T01:00:09Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。
ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文 参考訳(メタデータ) (2023-05-11T06:26:41Z) - Generative Disco: Text-to-Video Generation for Music Visualization [9.53563436241774]
我々は,大規模な言語モデルとテキスト・ツー・ビデオ生成による音楽視覚化を支援する生成AIシステムであるGenerative Discoを紹介する。
このシステムは、ユーザーが音楽の開始と終了を知らせるプロンプトを見つけ出し、それらの間を音楽のビートに補間する。
色、時間、主題、スタイルの変化を表現するトランジションと、ビデオが主題に焦点を合わせるのに役立つホールドという、これらの生成されたビデオを改善するためのデザインパターンを紹介します。
論文 参考訳(メタデータ) (2023-04-17T18:44:00Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。