論文の概要: Story2MIDI: Emotionally Aligned Music Generation from Text
- arxiv url: http://arxiv.org/abs/2512.02192v1
- Date: Mon, 01 Dec 2025 20:35:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.600117
- Title: Story2MIDI: Emotionally Aligned Music Generation from Text
- Title(参考訳): Story2MIDI: テキストから感情に合わせた音楽生成
- Authors: Mohammad Shokri, Alexandra C. Salem, Gabriel Levine, Johanna Devaney, Sarah Ita Levitan,
- Abstract要約: テキストから感情に沿った音楽を生成するシーケンス・ツー・シーケンス・トランスフォーマー・モデルであるStory2MIDIを紹介する。
以上の結果から,本モデルは音楽の感情関連特徴を効果的に学習し,その生成過程に組み込むことが示唆された。
- 参考スコア(独自算出の注目度): 38.36870481571071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Story2MIDI, a sequence-to-sequence Transformer-based model for generating emotion-aligned music from a given piece of text. To develop this model, we construct the Story2MIDI dataset by merging existing datasets for sentiment analysis from text and emotion classification in music. The resulting dataset contains pairs of text blurbs and music pieces that evoke the same emotions in the reader or listener. Despite the small scale of our dataset and limited computational resources, our results indicate that our model effectively learns emotion-relevant features in music and incorporates them into its generation process, producing samples with diverse emotional responses. We evaluate the generated outputs using objective musical metrics and a human listening study, confirming the model's ability to capture intended emotional cues.
- Abstract(参考訳): 本稿では,あるテキストから感情に沿った音楽を生成するシーケンス・ツー・シーケンス・トランスフォーマー・モデルであるStory2MIDIを紹介する。
このモデルを開発するために,既存の感情分析用データセットと音楽の感情分類用データセットを組み合わせたStory2MIDIデータセットを構築した。
得られたデータセットには、読み手や聞き手の同じ感情を誘発する、テキストのぼやけと曲のペアが含まれている。
データセットの小さなスケールと限られた計算資源にもかかわらず、我々のモデルは音楽の感情関連特徴を効果的に学習し、それらを生成プロセスに組み込み、多様な感情応答を持つサンプルを生成することを示唆している。
対象音楽指標と人間の聴取実験を用いて生成したアウトプットを評価し,そのモデルが意図した感情的手がかりを捉える能力を確認した。
関連論文リスト
- From Joy to Fear: A Benchmark of Emotion Estimation in Pop Song Lyrics [40.12543056558646]
歌詞の感情的内容は、聴取者の体験を形作り、音楽的嗜好に影響を与える上で重要な役割を担っている。
本稿では,6つの基本感情に対応する6つの感情強度スコアを予測し,歌詞のマルチラベル感情属性の課題について検討する。
論文 参考訳(メタデータ) (2025-09-06T06:28:28Z) - Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。
具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。
我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文 参考訳(メタデータ) (2025-08-20T02:16:52Z) - SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - Are We There Yet? A Brief Survey of Music Emotion Prediction Datasets, Models and Outstanding Challenges [9.62904012066486]
利用可能な音楽感情データセットの概要を概観し,評価基準とフィールドでの競争について論じる。
我々は、データセットの品質、アノテーションの一貫性、モデル一般化に関連する問題など、音楽の感情を正確に捉え続ける課題を強調した。
音楽感情認識の今後の進歩には、標準化されたベンチマーク、より大規模で多様なデータセット、モデル解釈可能性の改善が必要であると論じる。
論文 参考訳(メタデータ) (2024-06-13T05:00:27Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Exploring and Applying Audio-Based Sentiment Analysis in Music [0.0]
音楽的感情を解釈する計算モデルの能力は、ほとんど解明されていない。
本研究は,(1)音楽クリップの感情を時間とともに予測し,(2)時系列の次の感情値を決定し,シームレスな遷移を保証することを目的とする。
論文 参考訳(メタデータ) (2024-02-22T22:34:06Z) - Emotion4MIDI: a Lyrics-based Emotion-Labeled Symbolic Music Dataset [1.3607388598209322]
12kのMIDI曲からなる大規模感情ラベル付きシンボリック・ミュージック・データセットを提案する。
最初に、GoEmotionsデータセット上で感情分類モデルを訓練し、ベースラインの半分の大きさのモデルで最先端の結果を得た。
我々のデータセットは、様々なきめ細かい感情をカバーし、音楽と感情の関連性を探るための貴重なリソースを提供する。
論文 参考訳(メタデータ) (2023-07-27T11:24:47Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Bridging Music and Text with Crowdsourced Music Comments: A
Sequence-to-Sequence Framework for Thematic Music Comments Generation [18.2750732408488]
我々はクラウドソースの音楽コメントを利用して新しいデータセットを構築し,音楽のテキスト記述を生成するシーケンス・ツー・シーケンス・モデルを提案する。
生成したテキストの信頼性とテーマ性を高めるために,識別器と新しい話題評価器を提案する。
論文 参考訳(メタデータ) (2022-09-05T14:51:51Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。