論文の概要: Reinforcement Learning Jazz Improvisation: When Music Meets Game Theory
- arxiv url: http://arxiv.org/abs/2403.03224v1
- Date: Sun, 25 Feb 2024 16:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-10 23:52:37.586773
- Title: Reinforcement Learning Jazz Improvisation: When Music Meets Game Theory
- Title(参考訳): 強化学習ジャズ即興:音楽がゲーム理論に合致する時
- Authors: Vedant Tapiavala, Joshua Piesner, Sourjyamoy Barman, Feng Fu
- Abstract要約: ジャズ即興化のための数学ゲーム理論モデルを提案する。
強化学習を用いて、多様な即興戦略とその組み合わせのパフォーマンスを探索する。
私たちの仕事はジャズを超える有望な応用の基礎を築いた。
- 参考スコア(独自算出の注目度): 0.24578723416255752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Live performances of music are always charming, with the unpredictability of
improvisation due to the dynamic between musicians and interactions with the
audience. Jazz improvisation is a particularly noteworthy example for further
investigation from a theoretical perspective. Here, we introduce a novel
mathematical game theory model for jazz improvisation, providing a framework
for studying music theory and improvisational methodologies. We use
computational modeling, mainly reinforcement learning, to explore diverse
stochastic improvisational strategies and their paired performance on
improvisation. We find that the most effective strategy pair is a strategy that
reacts to the most recent payoff (Stepwise Changes) with a reinforcement
learning strategy limited to notes in the given chord (Chord-Following
Reinforcement Learning). Conversely, a strategy that reacts to the partner's
last note and attempts to harmonize with it (Harmony Prediction) strategy pair
yields the lowest non-control payoff and highest standard deviation, indicating
that picking notes based on immediate reactions to the partner player can yield
inconsistent outcomes. On average, the Chord-Following Reinforcement Learning
strategy demonstrates the highest mean payoff, while Harmony Prediction
exhibits the lowest. Our work lays the foundation for promising applications
beyond jazz: including the use of artificial intelligence (AI) models to
extract data from audio clips to refine musical reward systems, and training
machine learning (ML) models on existing jazz solos to further refine
strategies within the game.
- Abstract(参考訳): 音楽のライブ演奏は常に魅力的であり、ミュージシャン同士のダイナミックさと観客との交流によって即興性が予測できない。
ジャズ即興は理論的な観点からさらなる調査を行う上で特に注目すべき例である。
本稿では,ジャズ即興のための数学ゲーム理論モデルを紹介し,音楽理論と即興方法論を研究するための枠組みを提供する。
強化学習を主とする計算モデルを用いて多種多様な確率的即興戦略と対の即興性能を探索する。
最も効果的な戦略ペアは、与えられた和音の音符に限られる強化学習戦略(Chord-Following Reinforcement Learning)によって、最新の支払い(Stepwise Change)に反応する戦略であることがわかった。
逆に、パートナーの最後の音符に反応し、それと調和しようとする戦略(ハーモニー予測)は、最も低い制御不能な報酬と最も高い標準偏差を生じさせ、パートナープレーヤーに対する即時反応に基づく音符の選択は一貫性のない結果をもたらす可能性があることを示している。
平均すると、コード追従強化学習戦略は平均給与が最も高いが、調和予測は最低である。
私たちの研究は、ai(artificial intelligence)モデルを使用してオーディオクリップからデータを抽出し、音楽報酬システムを洗練し、既存のジャズソロで機械学習(ml)モデルをトレーニングし、ゲーム内の戦略をさらに洗練することを含む、ジャズ以外の有望なアプリケーションの基礎を築いている。
関連論文リスト
- All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - A Ranking Game for Imitation Learning [22.028680861819215]
模倣を、$textitpolicy$と$textitreward$関数の間の2プレイヤーランキングベースのStackelbergゲームとして扱う。
このゲームは、オフラインの好みから学習する逆強化学習(IRL)法と方法の両方の多くのサブセットを含んでいる。
本研究では,均衡条件下での準最適模倣学習を容易にするために,政策性能のランク付けに使用される損失関数の要件を理論的に分析する。
論文 参考訳(メタデータ) (2022-02-07T19:38:22Z) - BacHMMachine: An Interpretable and Scalable Model for Algorithmic
Harmonization for Four-part Baroque Chorales [23.64897650817862]
BacHMMachineは、音楽作曲の原則によって導かれる「理論駆動」の枠組みを採用している。
与えられた旋律線から鍵変調と和音の進行を学習するための確率的フレームワークを提供する。
これにより計算負荷が大幅に減少し、解釈可能性も向上する。
論文 参考訳(メタデータ) (2021-09-15T23:39:45Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - The Jazz Transformer on the Front Line: Exploring the Shortcomings of
AI-composed Music through Quantitative Measures [36.49582705724548]
本稿では,ジャズ音楽のリードシートをモデル化するために,Transformer-XLと呼ばれるニューラルシーケンスモデルを利用する生成モデルであるJazz Transformerを提案する。
次に、異なる視点から生成された合成の一連の計算分析を行う。
我々の研究は、なぜ現在まで機械生成音楽が人類の芸術に及ばないのか分析的な方法で示し、今後の自動作曲への取り組みがさらに追求されるよう、いくつかの目標を設定している。
論文 参考訳(メタデータ) (2020-08-04T03:32:59Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。