Fugu-MT 論文翻訳(概要): Generative Disco: Text-to-Video Generation for Music Visualization

論文の概要: Generative Disco: Text-to-Video Generation for Music Visualization

arxiv url: http://arxiv.org/abs/2304.08551v1
Date: Mon, 17 Apr 2023 18:44:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 16:40:07.113667
Title: Generative Disco: Text-to-Video Generation for Music Visualization
Title（参考訳）: Generative Disco:音楽可視化のためのテキスト・ビデオ生成
Authors: Vivian Liu, Tao Long, Nathan Raw, Lydia Chilton
Abstract要約: 生成型AIシステムであるGenerative Discoを導入し,大規模言語モデルとテキスト・ツー・イメージモデルによる音楽視覚化を支援する。ユーザーは音楽の間隔を選択して視覚化し、開始と終了のプロンプトを定義することでその視覚化をパラメータ化する。これらのプロンプトは、オーディオ再生ビデオのための音楽のビートに応じてワープされ、生成される。
参考スコア（独自算出の注目度）: 2.580765958706854
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Visuals are a core part of our experience of music, owing to the way they can amplify the emotions and messages conveyed through the music. However, creating music visualization is a complex, time-consuming, and resource-intensive process. We introduce Generative Disco, a generative AI system that helps generate music visualizations with large language models and text-to-image models. Users select intervals of music to visualize and then parameterize that visualization by defining start and end prompts. These prompts are warped between and generated according to the beat of the music for audioreactive video. We introduce design patterns for improving generated videos: "transitions", which express shifts in color, time, subject, or style, and "holds", which encourage visual emphasis and consistency. A study with professionals showed that the system was enjoyable, easy to explore, and highly expressive. We conclude on use cases of Generative Disco for professionals and how AI-generated content is changing the landscape of creative work.
Abstract（参考訳）: 視覚は、音楽を通じて伝達される感情やメッセージの増幅方法によって、私たちの音楽体験の中核となる部分です。しかし、音楽の視覚化は複雑で時間がかかり、リソース集約的なプロセスである。生成型AIシステムであるGenerative Discoを導入し,大規模言語モデルとテキスト・ツー・イメージモデルによる音楽視覚化を支援する。ユーザは音楽の間隔を選択して視覚化し、開始と終了のプロンプトを定義することでその視覚化をパラメータ化する。これらのプロンプトは、オーディオ再生ビデオのための音楽のビートに応じて、挟まれて生成される。色,時間,主題,スタイルの変化を表現する"トランジション"と,視覚的強調と一貫性を促進する"ホールド"という,生成ビデオを改善するためのデザインパターンを紹介する。専門家による研究では、システムは楽しく、調査しやすく、表現力が高いことが示されている。我々は、プロ向けジェネレーティブ・ディスコのユースケースと、AI生成コンテンツが創造的な仕事の風景をどのように変えつつあるかについて結論づける。

関連論文リスト

EXPOTION: Facial Expression and Motion Control for Multimodal Music Generation [5.834095167258525]
本稿では,マルチモーダルな視覚制御,特に人間の表情と上半身の動きを利用した生成モデルを提案する。我々は、事前訓練されたテキスト-音楽生成モデルにパラメータ効率細調整(PEFT)を適用した。表情と上半身のジェスチャーを対応音楽に合わせる7時間の同期映像記録からなる新しいデータセットを提案する。
論文参考訳（メタデータ） (2025-07-07T12:56:20Z)
Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文参考訳（メタデータ） (2025-04-10T09:47:26Z)
Mozualization: Crafting Music and Visual Representation with Multimodal AI [11.229032883997748]
Mozualizationは、多様な入力を統合することで、マルチスタイルの組込み音楽を生成する音楽生成・編集ツールである。私たちの作品は、人々が感情を表現する方法、ムード記述の詩や記事を書くこと、温かくて涼しいトーンで絵を描くこと、悲しい、または高揚的な音楽を聴くこと、にインスピレーションを受けています。
論文参考訳（メタデータ） (2025-04-05T08:22:20Z)
Every Image Listens, Every Image Dances: Music-Driven Image Animation [8.085267959520843]
MuseDanceは、音楽とテキストの両方の入力を使って画像を参照するエンド・ツー・エンドのモデルである。既存のアプローチとは異なり、MuseDanceはポーズや深さシーケンスのような複雑なモーションガイダンス入力を必要としない。本稿では,2,904本のダンスビデオと,それに対応する背景音楽とテキスト記述を含むマルチモーダルデータセットを提案する。
論文参考訳（メタデータ） (2025-01-30T23:38:51Z)
Interpreting Graphic Notation with MusicLDM: An AI Improvisation of Cornelius Cardew's Treatise [4.9485163144728235]
本研究はコーネリアス・カーデューの論文に触発された音楽の作曲と即興の手法を提示する。 OpenAIのChatGPTを利用して、論文の抽象的な視覚要素を解釈することにより、これらのグラフィカル画像を記述的テキストプロンプトに変換する。これらのプロンプトは、音楽生成用に事前訓練された潜在拡散モデルであるMusicLDMに入力される。
論文参考訳（メタデータ） (2024-12-12T05:08:36Z)
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。 MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-10-16T18:44:56Z)
Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文参考訳（メタデータ） (2024-09-12T08:19:25Z)
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文参考訳（メタデータ） (2024-07-23T17:17:05Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文参考訳（メタデータ） (2023-07-13T17:57:13Z)
Tr\"aumerAI: Dreaming Music with StyleGAN [2.578242050187029]
本稿では, ディープ・ミュージックの埋め込みをスタイルGANの埋め込みに直接マッピングするニューラル・ミュージック・ビジュアライザーを提案する。アノテータは10秒の100曲のクリップを聴き、StyleGANが生成した例の中で音楽に合ったイメージを選択した。生成した例は、音声と映像のマッピングが、あるレベルのセグメント内類似性とセグメント間異同を生じさせることを示している。
論文参考訳（メタデータ） (2021-02-09T07:04:22Z)
Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。 APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文参考訳（メタデータ） (2020-11-05T03:13:46Z)
Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文参考訳（メタデータ） (2020-02-01T17:57:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。