論文の概要: DAIRHuM: A Platform for Directly Aligning AI Representations with Human Musical Judgments applied to Carnatic Music
- arxiv url: http://arxiv.org/abs/2411.14907v1
- Date: Fri, 22 Nov 2024 13:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:02:46.495243
- Title: DAIRHuM: A Platform for Directly Aligning AI Representations with Human Musical Judgments applied to Carnatic Music
- Title(参考訳): DAIRHuM:カーネティック・ミュージックに適用された人間の音楽判断によるAI表現を直接調整するプラットフォーム
- Authors: Prashanth Thattai Ravikumar,
- Abstract要約: 本稿では,AI音楽モデルRepresentationsとHuman Musical judgments(DAIRHuM)の直接的なアライメントを探求するプラットフォームを提案する。
ミュージシャンや実験家が音楽録音のデータセットに類似点をラベル付けできるように設計され、事前訓練されたモデルのラベルとのアライメントを調べる。
その結果、リズムの調和の人的判断とモデルアライメントに関する顕著な知見が得られ、また、リズム知覚とカーナティック音楽特有の音楽類似性判断に重要な違いが浮き彫りにされた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Quantifying and aligning music AI model representations with human behavior is an important challenge in the field of MIR. This paper presents a platform for exploring the Direct alignment between AI music model Representations and Human Musical judgments (DAIRHuM). It is designed to enable musicians and experimentalists to label similarities in a dataset of music recordings, and examine a pre-trained model's alignment with their labels using quantitative scores and visual plots. DAIRHuM is applied to analyze alignment between NSynth representations, and a rhythmic duet between two percussionists in a Carnatic quartet ensemble, an example of a genre where annotated data is scarce and assessing alignment is non-trivial. The results demonstrate significant findings on model alignment with human judgments of rhythmic harmony, while highlighting key differences in rhythm perception and music similarity judgments specific to Carnatic music. This work is among the first efforts to enable users to explore human-AI model alignment in Carnatic music and advance MIR research in Indian music while dealing with data scarcity and cultural specificity. The development of this platform provides greater accessibility to music AI tools for under-represented genres.
- Abstract(参考訳): 音楽AIモデルの表現と人間の行動の定量化と調整は、MIRの分野における重要な課題である。
本稿では,AI音楽モデルRepresentationsとHuman Musical judgments(DAIRHuM)の直接的なアライメントを検討するためのプラットフォームを提案する。
音楽家や実験家が音楽録音のデータセットに類似点をラベル付けできるように設計され、定量的スコアと視覚プロットを用いて、事前訓練されたモデルとラベルとのアライメントを調べる。
DAIRHuMは、NSynth表現間のアライメントとカルナティック四重奏曲における2つのパーカッショニスト間のリズミカルデュエットを解析するために適用され、アノテートデータが不足しアライメントを評価するジャンルの例である。
その結果、リズムの調和の人的判断とモデルアライメントに関する顕著な知見が得られ、また、リズム知覚とカーナティック音楽特有の音楽類似性判断に重要な違いが浮き彫りにされた。
本研究は,カーナティック音楽における人間-AIモデルアライメントの探索と,データ不足と文化的特異性に対処しながらインド音楽におけるMIR研究の進展を図るための最初の試みである。
このプラットフォームの開発は、過度に表現されていないジャンルのための音楽AIツールへのアクセシビリティを向上する。
関連論文リスト
- Attention-guided Spectrogram Sequence Modeling with CNNs for Music Genre Classification [0.0]
注意に基づく時間的シグネチャモデリングを用いて音楽ジャンルを分類する革新的なモデルを提案する。
我々のアプローチは各作品の中でもっとも時間的に重要な瞬間を捉え、ジャンル識別のためのユニークな「シグナチャ」を作り上げる。
この研究は、技術的分類タスクと、ジャンルの微妙で人間的な経験のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-11-18T21:57:03Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - Between the AI and Me: Analysing Listeners' Perspectives on AI- and Human-Composed Progressive Metal Music [1.2874569408514918]
我々は,ロックミュージックをコントロールグループとして利用し,AIと人為的に生成するプログレッシブメタルに対する参加者の視点を探る。
本稿では,世代タイプ(人間対AI),ジャンル(プログレッシブメタル対ロック),キュレーションプロセス(ランダム対チェリーピック)の効果を評価するための混合手法を提案する。
本研究は,AI音楽生成におけるジャンル別特化を実現するために,ファインチューニングを用いたことを検証する。
人間の音楽に類似した評価を受けるAI生成の抜粋はいくつかあったが、聴取者は人間の作曲を好んだ。
論文 参考訳(メタデータ) (2024-07-31T14:03:45Z) - MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation [18.181382408551574]
本稿では,口語記述から歌声生成への新たな課題を提案する。
生成されたコンテンツと口語的人間の表現の整合性に焦点を当てている。
この課題は、AIモデル内の言語理解と聴覚表現のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-07-03T15:12:36Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - A Survey of Music Generation in the Context of Interaction [3.6522809408725223]
機械学習は、メロディーとポリフォニックの両方の曲の作曲と生成に成功している。
これらのモデルのほとんどは、ライブインタラクションによる人間と機械の共創には適していない。
論文 参考訳(メタデータ) (2024-02-23T12:41:44Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Flat latent manifolds for music improvisation between human and machine [9.571383193449648]
相互即興化が新たな体験につながるような環境では,音楽生成アルゴリズムを人間の音楽家に対抗するものとみなす。
学習モデルでは、潜在空間の定量化により新しい音楽系列を生成する。
そこで我々は,音楽実験を通じて提案手法の実証的証拠を提供し,プロのドラマーと対話的なジャムセッションのためのモデルを展開した。
論文 参考訳(メタデータ) (2022-02-23T09:00:17Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。