Fugu-MT 論文翻訳(概要): Symbolic music generation conditioned on continuous-valued emotions

論文の概要: Symbolic music generation conditioned on continuous-valued emotions

arxiv url: http://arxiv.org/abs/2203.16165v1
Date: Wed, 30 Mar 2022 09:38:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-31 16:24:50.768894
Title: Symbolic music generation conditioned on continuous-valued emotions
Title（参考訳）: 連続的感情に基づくシンボリック音楽の生成
Authors: Serkan Sulun, Matthew E. P. Davies, Paula Viana
Abstract要約: 音楽的感情によって駆動される多構造シンボリック音楽の創出のための新しいアプローチを提案する。われわれのアプローチの目新しいところは、最先端のトランスフォーマーの条件付けにある。感情ラベルと組み合わせたシンボル音楽の大規模データセットを提供する。
参考スコア（独自算出の注目度）: 1.704504466512536
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper we present a new approach for the generation of multi-instrument symbolic music driven by musical emotion. The principal novelty of our approach centres on conditioning a state-of-the-art transformer based on continuous-valued valence and arousal labels. In addition, we provide a new large-scale dataset of symbolic music paired with emotion labels in terms of valence and arousal. We evaluate our approach in a quantitative manner in two ways, first by measuring its note prediction accuracy, and second via a regression task in the valence-arousal plane. Our results demonstrate that our proposed approaches outperform conditioning using control tokens which is representative of the current state of the art.
Abstract（参考訳）: 本稿では,音楽的感情を駆動するマルチインストゥルメントシンボリック音楽の生成のための新しいアプローチを提案する。提案手法の主な特徴は,連続値と覚醒ラベルに基づく最先端の変圧器の条件付けである。さらに,感情ラベルとペアリングされたシンボリック音楽のヴァレンスと覚醒という新たな大規模データセットを提供する。提案手法を2つの方法で定量的に評価し, 第一に音符予測精度を測定し, 第二にvalence-arousal planeにおける回帰課題を用いて評価した。提案手法は,現状を表す制御トークンを用いた条件付けよりも優れていることを示す。

関連論文リスト

Explicit Tonal Tension Conditioning via Dual-Level Beam Search for Symbolic Music Generation [3.033196534183858]
最先端の象徴的な音楽生成モデルは、最近顕著な出力品質を達成した。本稿では,計算音調テンションモデルをトランスフォーマーフレームワークに統合する手法を提案する。
論文参考訳（メタデータ） (2025-11-24T17:41:04Z)
From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation [9.584152437544974]
本稿では,従来の二分法を超えて拡張されたメトリクスを用いて,コードアノテーションにおけるアノテーション間合意の評価を行う。共振器を用いたラベル平滑化により、共振器の概念をモデルに統合する新しいACEコンバータモデルを提案する。
論文参考訳（メタデータ） (2025-09-01T16:20:47Z)
Emotions as Ambiguity-aware Ordinal Representations [3.527702696095888]
我々は、感情のアノテーションに存在するあいまいさと、感情のトレースに固有の時間的ダイナミクスの両方をキャプチャする新しいフレームワークである、あいまいさを意識した順序的感情表現を導入する。その結果, 正規表現は非有界ラベル上で従来のあいまいさ認識モデルよりも優れていた。
論文参考訳（メタデータ） (2025-08-26T16:55:11Z)
Attention (as Discrete-Time Markov) Chains [76.61244121046035]
注意行列の新しい解釈を離散時間マルコフ連鎖として導入する。キーとなる観察は、意味的に類似した領域に関連付けられたトークンが準安定状態、すなわち注意が集中する傾向にある領域を形成し、ノイズの多い注意スコアが散逸することである。最後に、グローバルトークンの重要性を測定するマルコフ連鎖の定常状態ベクトルであるTokenRankを定義する。
論文参考訳（メタデータ） (2025-07-23T16:20:47Z)
Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文参考訳（メタデータ） (2025-06-30T14:00:14Z)
DuetGen: Music Driven Two-Person Dance Generation via Hierarchical Masked Modeling [70.79846001735547]
音楽から対話的な2人舞踊を生成するためのフレームワークであるDuetGenを提案する。近年の運動合成の進歩に触発されて,我々は2段階の解法を提案する。我々は、両方のダンサーの動きを統合された全体として表現し、必要な動きトークンを学習する。
論文参考訳（メタデータ） (2025-06-23T14:22:50Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
Continuous Adversarial Text Representation Learning for Affective Recognition [1.319058156672392]
本稿では、トランスモデルにおける感情認識の埋め込みを強化するための新しいフレームワークを提案する。提案手法は,コントラスト学習を導くために,連続原子価覚醒ラベリングシステムを導入する。動的トークン摂動機構を用いて,感情関連トークンに着目し,感情的手がかりに対するモデル感度を向上させる。
論文参考訳（メタデータ） (2025-02-28T00:29:09Z)
Learning Frame-Wise Emotion Intensity for Audio-Driven Talking-Head Generation [59.81482518924723]
そこで本研究では,発話頭生成のための微妙なシフトを捕捉し,生成する手法を提案する。我々は,強度レベルを正確に制御し,様々な感情を生成できる話頭フレームワークを開発した。提案手法の有効性を実験・解析により検証した。
論文参考訳（メタデータ） (2024-09-29T01:02:01Z)
Emotion-driven Piano Music Generation via Two-stage Disentanglement and Functional Representation [19.139752434303688]
感情的な側面を管理することは、自動音楽生成の課題である。本稿では,ピアノ演奏における感情のゆがみについて,2段階の枠組みを用いて検討する。
論文参考訳（メタデータ） (2024-07-30T16:29:28Z)
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文参考訳（メタデータ） (2024-07-05T08:08:22Z)
Modeling Emotional Trajectories in Written Stories Utilizing Transformers and Weakly-Supervised Learning [47.02027575768659]
本研究では,個別の感情カテゴリーで注釈付けされた子どもの物語の既存のデータセットに対して,連続的原子価と覚醒ラベルを導入する。得られた感情信号を予測するために,DeBERTaモデルを微調整し,弱教師付き学習手法を用いてベースラインを改善する。詳細な分析では、著者、個々の物語、物語内のセクションなどの要因によって結果がどの程度異なるかが示される。
論文参考訳（メタデータ） (2024-06-04T12:17:16Z)
Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文参考訳（メタデータ） (2024-04-26T07:30:32Z)
A Domain-Knowledge-Inspired Music Embedding Space and a Novel Attention Mechanism for Symbolic Music Modeling [0.0]
バイアス調整された正弦波符号化に基づく記号音楽のための基本音楽埋め込み(FME)を提案する。提案するFMEを利用して, 相対指数, ピッチ, オンセット埋め込みに基づく新しいアテンション機構を提案する。 RIPO変圧器は最先端の変圧器よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-12-02T05:04:31Z)
Unifying the Discrete and Continuous Emotion labels for Speech Emotion Recognition [28.881092401807894]
音声からの感情検出のためのパラ言語分析では、感情は離散的または次元的(連続的な評価)ラベルと同一視されている。本研究では,連続的感情特性と離散的感情特性を共同で予測するモデルを提案する。
論文参考訳（メタデータ） (2022-10-29T16:12:31Z)
Generating Lead Sheets with Affect: A Novel Conditional seq2seq Framework [3.029434408969759]
本稿では,リードシート内のコード進行の正負性や負性性を計算するための新しい手法を提案する。私たちのアプローチは、シーケンス・トゥ・シークエンスアーキテクチャのエンコーダ部分に高レベルの条件を含むため、ニューラルネットワーク翻訳(NMT)問題に似ています。提案された戦略は、制御可能な方法でリードシートを生成することができ、トレーニングデータセットのそれに似た音楽属性の分布をもたらす。
論文参考訳（メタデータ） (2021-04-27T09:04:21Z)
Music FaderNets: Controllable Music Generation Based On High-Level Features via Low-Level Feature Modelling [5.88864611435337]
限られたデータ量で高レベルの特徴表現を学習できるフレームワークを提案する。提案するフレームワークをMusic FaderNetsと呼び,低レベルの属性を継続的に操作できるという事実から着想を得た。本モデルでは, 覚醒特性とそれに対応する低レベル属性の固有関係をうまく学習できることを実証する。
論文参考訳（メタデータ） (2020-07-29T16:01:45Z)
Visual Attention for Musical Instrument Recognition [72.05116221011949]
本研究では,楽器認識の性能向上を図るため,音節時間感覚における注意機構,すなわち視覚的注意(la visual attention)の活用について検討する。第1のアプローチは,各音節時間インスタンスに基づく予測をアグリゲーション前に注意重み付けし,最終的な予測を生成するスライディング・ウインドウ・パラダイムに注意機構を適用した。第2のアプローチは、ネットワークがスペクトログラムの一部にのみ参加し、限られた回数の視覚的注意を前提として、次にどこに出席するかを決定する、反復的な視覚的注意モデルに基づいている。
論文参考訳（メタデータ） (2020-06-17T03:56:44Z)
MatchGAN: A Self-Supervised Semi-Supervised Conditional Generative Adversarial Network [51.84251358009803]
本稿では,条件付き生成逆数ネットワーク(GAN)に対する,半教師付き環境下での自己教師型学習手法を提案する。利用可能な数少ないラベル付きサンプルのラベル空間から無作為なラベルをサンプリングして拡張を行う。本手法は,ベースラインのトレーニングに使用したラベル付きサンプルの20%に過ぎません。
論文参考訳（メタデータ） (2020-06-11T17:14:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。