論文の概要: A Multimodal Symphony: Integrating Taste and Sound through Generative AI
- arxiv url: http://arxiv.org/abs/2503.02823v1
- Date: Tue, 04 Mar 2025 17:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:14:30.658255
- Title: A Multimodal Symphony: Integrating Taste and Sound through Generative AI
- Title(参考訳): マルチモーダル交響曲:生成AIによる味と音の統合
- Authors: Matteo Spanio, Massimiliano Zampini, Antonio Rodà, Franco Pierucci,
- Abstract要約: 本稿では味覚情報を音楽に変換するマルチモーダル生成モデルについて述べる。
本稿では,各楽曲に提供される詳細な味覚記述に基づいて,音楽生成モデル(MusicGEN)の微調整版を用いて音楽を生成する実験を行う。
- 参考スコア(独自算出の注目度): 1.2749527861829049
- License:
- Abstract: In recent decades, neuroscientific and psychological research has traced direct relationships between taste and auditory perceptions. This article explores multimodal generative models capable of converting taste information into music, building on this foundational research. We provide a brief review of the state of the art in this field, highlighting key findings and methodologies. We present an experiment in which a fine-tuned version of a generative music model (MusicGEN) is used to generate music based on detailed taste descriptions provided for each musical piece. The results are promising: according the participants' ($n=111$) evaluation, the fine-tuned model produces music that more coherently reflects the input taste descriptions compared to the non-fine-tuned model. This study represents a significant step towards understanding and developing embodied interactions between AI, sound, and taste, opening new possibilities in the field of generative AI. We release our dataset, code and pre-trained model at: https://osf.io/xs5jy/.
- Abstract(参考訳): 近年、神経科学と心理学の研究は、味覚と聴覚知覚の直接的な関係を辿ってきた。
本稿では,味覚情報を音楽に変換するマルチモーダル生成モデルについて,基礎研究に基づいて検討する。
本稿では,この分野における最先端技術について概観し,重要な発見と方法論を概説する。
本稿では,各楽曲に提供される詳細な味覚記述に基づいて,音楽生成モデル(MusicGEN)の微調整版を用いて音楽を生成する実験を行う。
被験者の111ドルの評価によると、微調整されたモデルは、非微調整のモデルに比べて、入力された味の描写をより忠実に反映した音楽を生成する。
この研究は、AI、音、味の相互作用を理解し、発展させるための重要なステップを示し、生成AIの分野における新たな可能性を開く。
データセット、コード、事前トレーニングされたモデルを以下にリリースします。
関連論文リスト
- Prevailing Research Areas for Music AI in the Era of Foundation Models [8.067636023395236]
過去数年間、生成的音楽AIアプリケーションが急増している。
音楽データセットの現状とその限界について論じる。
複数のモダリティへの拡張とアーティストのワークフローとの統合に向けて,これらの生成モデルの応用を強調した。
論文 参考訳(メタデータ) (2024-09-14T09:06:43Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - Between the AI and Me: Analysing Listeners' Perspectives on AI- and Human-Composed Progressive Metal Music [1.2874569408514918]
我々は,ロックミュージックをコントロールグループとして利用し,AIと人為的に生成するプログレッシブメタルに対する参加者の視点を探る。
本稿では,世代タイプ(人間対AI),ジャンル(プログレッシブメタル対ロック),キュレーションプロセス(ランダム対チェリーピック)の効果を評価するための混合手法を提案する。
本研究は,AI音楽生成におけるジャンル別特化を実現するために,ファインチューニングを用いたことを検証する。
人間の音楽に類似した評価を受けるAI生成の抜粋はいくつかあったが、聴取者は人間の作曲を好んだ。
論文 参考訳(メタデータ) (2024-07-31T14:03:45Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - StemGen: A music generation model that listens [9.489938613869864]
音楽の文脈に耳を傾けたり反応したりできる音楽生成モデルを作成するための代替パラダイムを提案する。
本稿では,非自己回帰型トランスフォーマーモデルアーキテクチャを用いて,そのようなモデルを構築する方法について述べる。
得られたモデルは、最先端のテキスト条件付きモデルの音質に到達し、その文脈と強い音楽的コヒーレンスを示す。
論文 参考訳(メタデータ) (2023-12-14T08:09:20Z) - Exploring Variational Auto-Encoder Architectures, Configurations, and
Datasets for Generative Music Explainable AI [7.391173255888337]
音楽と芸術のための生成AIモデルは、ますます複雑で理解しづらい。
生成AIモデルをより理解しやすいものにするためのアプローチの1つは、生成AIモデルに少数の意味的に意味のある属性を課すことである。
本稿では,変分自動エンコーダモデル(MeasureVAEとAdversarialVAE)の異なる組み合わせが音楽生成性能に与える影響について,系統的な検討を行った。
論文 参考訳(メタデータ) (2023-11-14T17:27:30Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Learning to Generate Music With Sentiment [1.8275108630751844]
本稿では,特定の感情で音楽を構成するための生成的深層学習モデルを提案する。
音楽生成の他に、シンボリック音楽の感情分析にも同じモデルを用いることができる。
論文 参考訳(メタデータ) (2021-03-09T03:16:52Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。