論文の概要: Generative Disco: Text-to-Video Generation for Music Visualization
- arxiv url: http://arxiv.org/abs/2304.08551v1
- Date: Mon, 17 Apr 2023 18:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 16:40:07.113667
- Title: Generative Disco: Text-to-Video Generation for Music Visualization
- Title(参考訳): Generative Disco:音楽可視化のためのテキスト・ビデオ生成
- Authors: Vivian Liu, Tao Long, Nathan Raw, Lydia Chilton
- Abstract要約: 生成型AIシステムであるGenerative Discoを導入し,大規模言語モデルとテキスト・ツー・イメージモデルによる音楽視覚化を支援する。
ユーザーは音楽の間隔を選択して視覚化し、開始と終了のプロンプトを定義することでその視覚化をパラメータ化する。
これらのプロンプトは、オーディオ再生ビデオのための音楽のビートに応じてワープされ、生成される。
- 参考スコア(独自算出の注目度): 2.580765958706854
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visuals are a core part of our experience of music, owing to the way they can
amplify the emotions and messages conveyed through the music. However, creating
music visualization is a complex, time-consuming, and resource-intensive
process. We introduce Generative Disco, a generative AI system that helps
generate music visualizations with large language models and text-to-image
models. Users select intervals of music to visualize and then parameterize that
visualization by defining start and end prompts. These prompts are warped
between and generated according to the beat of the music for audioreactive
video. We introduce design patterns for improving generated videos:
"transitions", which express shifts in color, time, subject, or style, and
"holds", which encourage visual emphasis and consistency. A study with
professionals showed that the system was enjoyable, easy to explore, and highly
expressive. We conclude on use cases of Generative Disco for professionals and
how AI-generated content is changing the landscape of creative work.
- Abstract(参考訳): 視覚は、音楽を通じて伝達される感情やメッセージの増幅方法によって、私たちの音楽体験の中核となる部分です。
しかし、音楽の視覚化は複雑で時間がかかり、リソース集約的なプロセスである。
生成型AIシステムであるGenerative Discoを導入し,大規模言語モデルとテキスト・ツー・イメージモデルによる音楽視覚化を支援する。
ユーザは音楽の間隔を選択して視覚化し、開始と終了のプロンプトを定義することでその視覚化をパラメータ化する。
これらのプロンプトは、オーディオ再生ビデオのための音楽のビートに応じて、挟まれて生成される。
色,時間,主題,スタイルの変化を表現する"トランジション"と,視覚的強調と一貫性を促進する"ホールド"という,生成ビデオを改善するためのデザインパターンを紹介する。
専門家による研究では、システムは楽しく、調査しやすく、表現力が高いことが示されている。
我々は、プロ向けジェネレーティブ・ディスコのユースケースと、AI生成コンテンツが創造的な仕事の風景をどのように変えつつあるかについて結論づける。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Tr\"aumerAI: Dreaming Music with StyleGAN [2.578242050187029]
本稿では, ディープ・ミュージックの埋め込みをスタイルGANの埋め込みに直接マッピングするニューラル・ミュージック・ビジュアライザーを提案する。
アノテータは10秒の100曲のクリップを聴き、StyleGANが生成した例の中で音楽に合ったイメージを選択した。
生成した例は、音声と映像のマッピングが、あるレベルのセグメント内類似性とセグメント間異同を生じさせることを示している。
論文 参考訳(メタデータ) (2021-02-09T07:04:22Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。