論文の概要: Explainable Deep Learning Analysis for Raga Identification in Indian Art Music
- arxiv url: http://arxiv.org/abs/2406.02443v2
- Date: Sat, 21 Dec 2024 08:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:51:39.162470
- Title: Explainable Deep Learning Analysis for Raga Identification in Indian Art Music
- Title(参考訳): インド芸術音楽におけるラガ同定のための説明可能なディープラーニング解析
- Authors: Parampreet Singh, Vipul Arora,
- Abstract要約: 自動ラガ識別(ARI)のためのCNN-LSTMモデルを訓練する。
我々は、Raga識別にSoundLIMEとGradCAM++というモデル説明可能性技術を使った最初の試みを行っている。
本結果は,人間の理解とモデル理解の相違を顕著に示すものである。
- 参考スコア(独自算出の注目度): 1.8477401359673709
- License:
- Abstract: Raga identification is an important problem within the domain of Indian Art music, as Ragas are fundamental to its composition and performance, playing a crucial role in music retrieval, preservation, and education. Few studies that have explored this task employ approaches such as signal processing, Machine Learning (ML), and more recently, Deep Learning (DL) based methods. However, a key question remains unanswered in all these works: do these ML/DL methods learn and interpret Ragas in a manner similar to human experts? Besides, a significant roadblock in this research is the unavailability of an ample supply of rich, labeled datasets, which drives these ML/DL-based methods. In this paper, firstly we curate a dataset comprising 191 hours of Hindustani Classical Music (HCM) recordings, annotate it for Raga and tonic labels, and train a CNN-LSTM model for the task of Automatic Raga Identification (ARI). We achieve a chunk-wise f1-measure of 0.89 for a subset of 12 Raga classes. Following this, we make one of the first attempts to employ model explainability techniques: SoundLIME and GradCAM++ for Raga identification, to evaluate whether the classifier's predictions align with human understanding of Ragas. We compare the generated explanations with human expert annotations and further analyze individual test examples to understand the role of regions highlighted by explanations in making correct or incorrect predictions made by the model. Our results demonstrate a significant alignment of the model's understanding with human understanding, and the thorough analysis validates the effectiveness of our approach.
- Abstract(参考訳): ラガの識別はインド美術の領域において重要な問題であり、ラガは作曲と演奏の基本であり、音楽の検索、保存、教育において重要な役割を担っている。
このタスクを探索した研究は、信号処理や機械学習(ML)といったアプローチを採用するものはほとんどなく、最近ではDeep Learning(DL)ベースの手法も採用されている。
しかし、これらのML/DLメソッドは、人間の専門家と同じような方法でRagasを学習し、解釈するのか?
さらに、この研究における重要な障害は、ML/DLベースの手法を駆動するリッチなラベル付きデータセットの十分な供給が不可能であることだ。
本稿では,まず,191時間にわたるヒンズーシャニー古典音楽(HCM)録音からなるデータセットをキュレートし,それをラガやトニックレーベルに注釈し,自動ラガ識別(ARI)タスクのためのCNN-LSTMモデルを訓練する。
我々は12のラガ類の部分集合に対して0.89のチャンクワイズf1測度を達成する。
次に、Raga識別のためのSoundLIMEとGradCAM++を用いて、分類器の予測がRagasの人間の理解と一致するかどうかを評価する。
生成した説明を人間の専門家アノテーションと比較し、さらに個別のテスト例を分析し、モデルによる正しい予測や誤った予測を行う際に、説明によって強調される領域の役割を理解する。
本研究の結果は,人間の理解とモデル理解の相違を顕著に示し,本手法の有効性を徹底的な分析により検証した。
関連論文リスト
- Learning from Neighbors: Category Extrapolation for Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - Investigating Persuasion Techniques in Arabic: An Empirical Study Leveraging Large Language Models [0.13980986259786224]
本稿では、アラビアのソーシャルメディアコンテンツにおける説得的手法の同定に焦点をあてた総合的な実証的研究について述べる。
我々は、プレトレーニング言語モデル(PLM)を利用し、ArAlEvalデータセットを活用する。
本研究では,PLMの力を活用した3つの学習手法について検討した。
論文 参考訳(メタデータ) (2024-05-21T15:55:09Z) - An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging [6.363158395541767]
自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。
本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
論文 参考訳(メタデータ) (2024-04-14T07:56:08Z) - DeepSRGM -- Sequence Classification and Ranking in Indian Classical
Music with Deep Learning [7.140656816182373]
ラガは作曲と即興のメロディックな枠組みである。
インド古典音楽において,ラーガ認識は重要な音楽情報検索課題である。
本稿では,ラーガ認識に対する深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-15T18:11:02Z) - Tyger: Task-Type-Generic Active Learning for Molecular Property
Prediction [121.97742787439546]
分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題である。
アノテーションのコストを削減するため,注釈付けのための最も代表的で情報性の高いデータのみを選択するために,深層能動学習法が開発された。
本稿では,異なるタイプの学習タスクを統一的に処理できるタスク型汎用能動的学習フレームワーク(Tyger)を提案する。
論文 参考訳(メタデータ) (2022-05-23T12:56:12Z) - Classifying Human Activities using Machine Learning and Deep Learning
Techniques [0.0]
HAR(Human Activity Recognition)は、人間の行動を認識する機械。
HARの課題は、与えられたデータに基づいて人間の活動を分離することの難しさを克服することである。
Long Short-Term Memory(LSTM)、Bi-Directional LS分類器、Recurrent Neural Network(RNN)、Gated Recurrent Unit(GRU)といったディープラーニング技術がトレーニングされている。
実験の結果、機械学習における線形サポートベクトルとディープラーニングにおけるGated Recurrent Unitが、人間の活動認識により良い精度を提供することがわかった。
論文 参考訳(メタデータ) (2022-05-19T05:20:04Z) - Human Activity Recognition Using Multichannel Convolutional Neural
Network [0.0]
人間の活動認識(HAR)は、単に人間の行動を知覚する機械の能力を指します。
本論文では,実用的行動から収集したデータに基づいて,人間の行動を区別できる教師付き学習法について述べる。
このモデルはUCI HARデータセットでテストされ、95.25%の分類精度が得られた。
論文 参考訳(メタデータ) (2021-01-17T16:48:17Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。