論文の概要: Generative Disco: Text-to-Video Generation for Music Visualization
- arxiv url: http://arxiv.org/abs/2304.08551v1
- Date: Mon, 17 Apr 2023 18:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 16:40:07.113667
- Title: Generative Disco: Text-to-Video Generation for Music Visualization
- Title(参考訳): Generative Disco:音楽可視化のためのテキスト・ビデオ生成
- Authors: Vivian Liu, Tao Long, Nathan Raw, Lydia Chilton
- Abstract要約: 生成型AIシステムであるGenerative Discoを導入し,大規模言語モデルとテキスト・ツー・イメージモデルによる音楽視覚化を支援する。
ユーザーは音楽の間隔を選択して視覚化し、開始と終了のプロンプトを定義することでその視覚化をパラメータ化する。
これらのプロンプトは、オーディオ再生ビデオのための音楽のビートに応じてワープされ、生成される。
- 参考スコア(独自算出の注目度): 2.580765958706854
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visuals are a core part of our experience of music, owing to the way they can
amplify the emotions and messages conveyed through the music. However, creating
music visualization is a complex, time-consuming, and resource-intensive
process. We introduce Generative Disco, a generative AI system that helps
generate music visualizations with large language models and text-to-image
models. Users select intervals of music to visualize and then parameterize that
visualization by defining start and end prompts. These prompts are warped
between and generated according to the beat of the music for audioreactive
video. We introduce design patterns for improving generated videos:
"transitions", which express shifts in color, time, subject, or style, and
"holds", which encourage visual emphasis and consistency. A study with
professionals showed that the system was enjoyable, easy to explore, and highly
expressive. We conclude on use cases of Generative Disco for professionals and
how AI-generated content is changing the landscape of creative work.
- Abstract(参考訳): 視覚は、音楽を通じて伝達される感情やメッセージの増幅方法によって、私たちの音楽体験の中核となる部分です。
しかし、音楽の視覚化は複雑で時間がかかり、リソース集約的なプロセスである。
生成型AIシステムであるGenerative Discoを導入し,大規模言語モデルとテキスト・ツー・イメージモデルによる音楽視覚化を支援する。
ユーザは音楽の間隔を選択して視覚化し、開始と終了のプロンプトを定義することでその視覚化をパラメータ化する。
これらのプロンプトは、オーディオ再生ビデオのための音楽のビートに応じて、挟まれて生成される。
色,時間,主題,スタイルの変化を表現する"トランジション"と,視覚的強調と一貫性を促進する"ホールド"という,生成ビデオを改善するためのデザインパターンを紹介する。
専門家による研究では、システムは楽しく、調査しやすく、表現力が高いことが示されている。
我々は、プロ向けジェネレーティブ・ディスコのユースケースと、AI生成コンテンツが創造的な仕事の風景をどのように変えつつあるかについて結論づける。
関連論文リスト
- Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - It's Time for Artistic Correspondence in Music and Video [32.31962546363909]
本稿では,あるビデオに対して楽曲を推薦するアプローチを提案する。また,その逆も,その時間的アライメントと,芸術的レベルでの対応の両方に基づいて提案する。
人間のアノテーションを必要とせずに、データから直接この対応を学習する自己教師型アプローチを提案する。
実験により、この手法は時間的文脈を利用していない選択肢を強く上回ることを示した。
論文 参考訳(メタデータ) (2022-06-14T20:21:04Z) - Tr\"aumerAI: Dreaming Music with StyleGAN [2.578242050187029]
本稿では, ディープ・ミュージックの埋め込みをスタイルGANの埋め込みに直接マッピングするニューラル・ミュージック・ビジュアライザーを提案する。
アノテータは10秒の100曲のクリップを聴き、StyleGANが生成した例の中で音楽に合ったイメージを選択した。
生成した例は、音声と映像のマッピングが、あるレベルのセグメント内類似性とセグメント間異同を生じさせることを示している。
論文 参考訳(メタデータ) (2021-02-09T07:04:22Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。