論文の概要: Controlling Perceived Emotion in Symbolic Music Generation with Monte
Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2208.05162v2
- Date: Thu, 11 Aug 2022 00:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 11:12:44.980699
- Title: Controlling Perceived Emotion in Symbolic Music Generation with Monte
Carlo Tree Search
- Title(参考訳): モンテカルロ木探索によるシンボリック音楽生成における感情知覚の制御
- Authors: Lucas N. Ferreira, Lili Mou, Jim Whitehead, Levi H. S. Lelis
- Abstract要約: モンテカルロ木探索をデコード機構として用いて,言語モデルで学習した確率分布を与えられた感情に向けて制御する。
復号プロセスのすべてのステップにおいて、木に対する予測的上部信頼を用いて、感情と品質の平均値を最大化するシーケンスを探索する。
本研究では, 客観評価値の集合を用いて, 人体構成部品について, 生成サンプルの品質を評価する。
- 参考スコア(独自算出の注目度): 33.05264795940019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new approach for controlling emotion in symbolic music
generation with Monte Carlo Tree Search. We use Monte Carlo Tree Search as a
decoding mechanism to steer the probability distribution learned by a language
model towards a given emotion. At every step of the decoding process, we use
Predictor Upper Confidence for Trees (PUCT) to search for sequences that
maximize the average values of emotion and quality as given by an emotion
classifier and a discriminator, respectively. We use a language model as PUCT's
policy and a combination of the emotion classifier and the discriminator as its
value function. To decode the next token in a piece of music, we sample from
the distribution of node visits created during the search. We evaluate the
quality of the generated samples with respect to human-composed pieces using a
set of objective metrics computed directly from the generated samples. We also
perform a user study to evaluate how human subjects perceive the generated
samples' quality and emotion. We compare PUCT against Stochastic Bi-Objective
Beam Search (SBBS) and Conditional Sampling (CS). Results suggest that PUCT
outperforms SBBS and CS in almost all metrics of music quality and emotion.
- Abstract(参考訳): 本論文ではモンテカルロ木探索を用いたシンボリック音楽生成における感情制御手法を提案する。
モンテカルロ木探索をデコード機構として用いて,言語モデルで学習した確率分布を与えられた感情に向けて制御する。
復号処理の各ステップでは,木(puct)に対する予測子上信頼度を用いて,感情分類器と判別器が与える感情の平均値と品質を最大化するシーケンスを探索する。
puctのポリシーとして言語モデルを使用し、感情分類器と判別器をその価値関数として組み合わせます。
楽曲中の次のトークンをデコードするために、検索中に生成されたノード訪問の分布からサンプルを作成する。
生成したサンプルから直接計算した客観的な測定値の集合を用いて, 生成したサンプルの品質を評価する。
また, 被験者が生成したサンプルの質や感情をどのように知覚するかを評価するために, ユーザ調査を行った。
PUCTとSBBS(Stochastic Bi-Objective Beam Search)とCS(Conditional Smpling)を比較した。
その結果,PUCTは音楽の質や感情の指標のほとんどすべてにおいて,SBBSやCSよりも優れていた。
関連論文リスト
- Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.1455937444848385]
本稿では,音声病理診断における現代的実践の徹底的な研究から得られた,ロバストな特徴セットを提案する。
K-Means Synthetic Minority Over-Sampling Technique(K-Means Synthetic Over-Sampling Technique)アルゴリズムを用いて,Sarbr"ucken Voice Database(SVD)のデータを含むこの機能セットを組み合わせる。
提案手法は,音声病理診断における非重み付き平均リコールによって測定された最先端の性能を達成している。
論文 参考訳(メタデータ) (2024-10-14T14:17:52Z) - A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。
我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - generAItor: Tree-in-the-Loop Text Generation for Language Model
Explainability and Adaptation [28.715001906405362]
大規模言語モデル(LLM)は、自動補完、補助的な書き込み、チャットベースのテキスト生成など、様々な下流タスクに広くデプロイされている。
本稿では,ビーム探索ツリーの視覚的表現を解析,説明,適応する中心的な要素とする,ループ内ツリーのアプローチを提案することで,この欠点に対処する。
視覚解析技術であるGenerAItorを,タスク固有のウィジェットで中央ビーム探索木を拡大し,ターゲットとした可視化とインタラクションの可能性を提供する。
論文 参考訳(メタデータ) (2024-03-12T13:09:15Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Discrete Diffusion Probabilistic Models for Symbolic Music Generation [6.617487928813374]
本研究は,D3PMを用いたポリフォニックシンボリック音楽の直接生成について述べる。
現在の定量的評価指標によると,本モデルは最先端のサンプル品質を示す。
また,音楽サンプルの品質の定量的評価について,統計的指標を用いて批判的考察を行い,簡単なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-16T14:43:38Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Evaluating Deep Music Generation Methods Using Data Augmentation [13.72212417973239]
我々は,アルゴリズムによって生成された楽曲のサンプルを評価するための,均質で客観的な枠組みに焦点をあてる。
生成した楽曲の楽譜評価は行わず,感情や気分やテーマに関する意味のある情報が含まれているかを探る。
論文 参考訳(メタデータ) (2021-12-31T20:35:46Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。