論文の概要: Interpreting Graphic Notation with MusicLDM: An AI Improvisation of Cornelius Cardew's Treatise
- arxiv url: http://arxiv.org/abs/2412.08944v1
- Date: Thu, 12 Dec 2024 05:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:30:38.087356
- Title: Interpreting Graphic Notation with MusicLDM: An AI Improvisation of Cornelius Cardew's Treatise
- Title(参考訳): MusicLDMによるグラフ表記の解釈 : コーネリアス・カーデューの論文のAIによる改善
- Authors: Tornike Karchkhadze, Keren Shao, Shlomo Dubnov,
- Abstract要約: 本研究はコーネリアス・カーデューの論文に触発された音楽の作曲と即興の手法を提示する。
OpenAIのChatGPTを利用して、論文の抽象的な視覚要素を解釈することにより、これらのグラフィカル画像を記述的テキストプロンプトに変換する。
これらのプロンプトは、音楽生成用に事前訓練された潜在拡散モデルであるMusicLDMに入力される。
- 参考スコア(独自算出の注目度): 4.9485163144728235
- License:
- Abstract: This work presents a novel method for composing and improvising music inspired by Cornelius Cardew's Treatise, using AI to bridge graphic notation and musical expression. By leveraging OpenAI's ChatGPT to interpret the abstract visual elements of Treatise, we convert these graphical images into descriptive textual prompts. These prompts are then input into MusicLDM, a pre-trained latent diffusion model designed for music generation. We introduce a technique called "outpainting," which overlaps sections of AI-generated music to create a seamless and cohesive composition. We demostrate a new perspective on performing and interpreting graphic scores, showing how AI can transform visual stimuli into sound and expand the creative possibilities in contemporary/experimental music composition. Musical pieces are available at https://bit.ly/TreatiseAI
- Abstract(参考訳): 本研究は,コーネリアス・カーキューの論文に触発された音楽の作曲と即興化のための新しい手法を提案する。
OpenAIのChatGPTを利用して、論文の抽象的な視覚要素を解釈することにより、これらのグラフィカル画像を記述的テキストプロンプトに変換する。
これらのプロンプトは、音楽生成用に事前訓練された潜在拡散モデルであるMusicLDMに入力される。
そこで我々は,AI生成音楽のセクションを重畳して,シームレスで密着的な作曲を行う「アウトパインティング(outpainting)」手法を提案する。
我々は、AIが視覚刺激を音に変換し、現代音楽や実験音楽の創造的可能性を拡張する方法について、グラフィックスコアの演奏と解釈に関する新たな視点を明らかにした。
楽曲はhttps://bit.ly/TreatiseAIで入手できる。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - Art2Mus: Bridging Visual Arts and Music through Cross-Modal Generation [8.185890043443601]
我々は$mathcalAtextitrt2mathcalMtextitus$を紹介した。
実験の結果、$mathcalAtextitrt2mathcalMtextitus$は入力刺激に共鳴する音楽を生成することができることが示された。
論文 参考訳(メタデータ) (2024-10-07T10:48:08Z) - Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation [111.2195741547517]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
論文 参考訳(メタデータ) (2023-08-27T19:44:44Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Generative Disco: Text-to-Video Generation for Music Visualization [9.53563436241774]
我々は,大規模な言語モデルとテキスト・ツー・ビデオ生成による音楽視覚化を支援する生成AIシステムであるGenerative Discoを紹介する。
このシステムは、ユーザーが音楽の開始と終了を知らせるプロンプトを見つけ出し、それらの間を音楽のビートに補間する。
色、時間、主題、スタイルの変化を表現するトランジションと、ビデオが主題に焦点を合わせるのに役立つホールドという、これらの生成されたビデオを改善するためのデザインパターンを紹介します。
論文 参考訳(メタデータ) (2023-04-17T18:44:00Z) - The artificial synesthete: Image-melody translations with variational
autoencoders [0.0]
ネットワークは、繰り返しの関節露光から音楽的概念と視覚的概念の対応集合を学習する。
結果として生じる「人工合成」は、イメージや音楽からのイメージにインスパイアされた単純な旋律を生成する。
論文 参考訳(メタデータ) (2021-12-06T11:54:13Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。