論文の概要: Generative Disco: Text-to-Video Generation for Music Visualization
- arxiv url: http://arxiv.org/abs/2304.08551v2
- Date: Thu, 28 Sep 2023 16:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 22:35:32.987564
- Title: Generative Disco: Text-to-Video Generation for Music Visualization
- Title(参考訳): Generative Disco:音楽可視化のためのテキスト・ビデオ生成
- Authors: Vivian Liu, Tao Long, Nathan Raw, Lydia Chilton
- Abstract要約: 我々は,大規模な言語モデルとテキスト・ツー・ビデオ生成による音楽視覚化を支援する生成AIシステムであるGenerative Discoを紹介する。
このシステムは、ユーザーが音楽の開始と終了を知らせるプロンプトを見つけ出し、それらの間を音楽のビートに補間する。
色、時間、主題、スタイルの変化を表現するトランジションと、ビデオが主題に焦点を合わせるのに役立つホールドという、これらの生成されたビデオを改善するためのデザインパターンを紹介します。
- 参考スコア(独自算出の注目度): 9.53563436241774
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visuals can enhance our experience of music, owing to the way they can
amplify the emotions and messages conveyed within it. However, creating music
visualization is a complex, time-consuming, and resource-intensive process. We
introduce Generative Disco, a generative AI system that helps generate music
visualizations with large language models and text-to-video generation. The
system helps users visualize music in intervals by finding prompts to describe
the images that intervals start and end on and interpolating between them to
the beat of the music. We introduce design patterns for improving these
generated videos: transitions, which express shifts in color, time, subject, or
style, and holds, which help focus the video on subjects. A study with
professionals showed that transitions and holds were a highly expressive
framework that enabled them to build coherent visual narratives. We conclude on
the generalizability of these patterns and the potential of generated video for
creative professionals.
- Abstract(参考訳): 視覚は音楽の体験を高めることができ、その内部で伝えられる感情やメッセージの増幅方法によってもたらされる。
しかし、音楽の視覚化は複雑で時間がかかり、リソース集約的なプロセスである。
我々は,大規模な言語モデルとテキスト・ツー・ビデオ生成による音楽視覚化を支援する生成AIシステムであるGenerative Discoを紹介する。
このシステムは、インターバルが開始・終了する画像をプロンプトし、音楽のビートに合わせて補間することで、ユーザーが音楽の間隔を可視化するのを助ける。
色、時間、主題、スタイルの変化を表現するトランジションと、ビデオが主題に焦点を合わせるのに役立つホールドという、これらの生成されたビデオを改善するためのデザインパターンを紹介します。
専門家による研究によると、移行と保持は、一貫性のあるビジュアルな物語を構築できる非常に表現力のあるフレームワークであった。
我々は、これらのパターンの一般化可能性と、創造的プロフェッショナルのための生成ビデオの可能性について結論づける。
関連論文リスト
- Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - It's Time for Artistic Correspondence in Music and Video [32.31962546363909]
本稿では,あるビデオに対して楽曲を推薦するアプローチを提案する。また,その逆も,その時間的アライメントと,芸術的レベルでの対応の両方に基づいて提案する。
人間のアノテーションを必要とせずに、データから直接この対応を学習する自己教師型アプローチを提案する。
実験により、この手法は時間的文脈を利用していない選択肢を強く上回ることを示した。
論文 参考訳(メタデータ) (2022-06-14T20:21:04Z) - Tr\"aumerAI: Dreaming Music with StyleGAN [2.578242050187029]
本稿では, ディープ・ミュージックの埋め込みをスタイルGANの埋め込みに直接マッピングするニューラル・ミュージック・ビジュアライザーを提案する。
アノテータは10秒の100曲のクリップを聴き、StyleGANが生成した例の中で音楽に合ったイメージを選択した。
生成した例は、音声と映像のマッピングが、あるレベルのセグメント内類似性とセグメント間異同を生じさせることを示している。
論文 参考訳(メタデータ) (2021-02-09T07:04:22Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。