論文の概要: Explainable Deep Learning Analysis for Raga Identification in Indian Art Music
- arxiv url: http://arxiv.org/abs/2406.02443v2
- Date: Sat, 21 Dec 2024 08:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:51:39.162470
- Title: Explainable Deep Learning Analysis for Raga Identification in Indian Art Music
- Title(参考訳): インド芸術音楽におけるラガ同定のための説明可能なディープラーニング解析
- Authors: Parampreet Singh, Vipul Arora,
- Abstract要約: 自動ラガ識別(ARI)のためのCNN-LSTMモデルを訓練する。
我々は、Raga識別にSoundLIMEとGradCAM++というモデル説明可能性技術を使った最初の試みを行っている。
本結果は,人間の理解とモデル理解の相違を顕著に示すものである。
- 参考スコア(独自算出の注目度): 1.8477401359673709
- License:
- Abstract: Raga identification is an important problem within the domain of Indian Art music, as Ragas are fundamental to its composition and performance, playing a crucial role in music retrieval, preservation, and education. Few studies that have explored this task employ approaches such as signal processing, Machine Learning (ML), and more recently, Deep Learning (DL) based methods. However, a key question remains unanswered in all these works: do these ML/DL methods learn and interpret Ragas in a manner similar to human experts? Besides, a significant roadblock in this research is the unavailability of an ample supply of rich, labeled datasets, which drives these ML/DL-based methods. In this paper, firstly we curate a dataset comprising 191 hours of Hindustani Classical Music (HCM) recordings, annotate it for Raga and tonic labels, and train a CNN-LSTM model for the task of Automatic Raga Identification (ARI). We achieve a chunk-wise f1-measure of 0.89 for a subset of 12 Raga classes. Following this, we make one of the first attempts to employ model explainability techniques: SoundLIME and GradCAM++ for Raga identification, to evaluate whether the classifier's predictions align with human understanding of Ragas. We compare the generated explanations with human expert annotations and further analyze individual test examples to understand the role of regions highlighted by explanations in making correct or incorrect predictions made by the model. Our results demonstrate a significant alignment of the model's understanding with human understanding, and the thorough analysis validates the effectiveness of our approach.
- Abstract(参考訳): ラガの識別はインド美術の領域において重要な問題であり、ラガは作曲と演奏の基本であり、音楽の検索、保存、教育において重要な役割を担っている。
このタスクを探索した研究は、信号処理や機械学習(ML)といったアプローチを採用するものはほとんどなく、最近ではDeep Learning(DL)ベースの手法も採用されている。
しかし、これらのML/DLメソッドは、人間の専門家と同じような方法でRagasを学習し、解釈するのか?
さらに、この研究における重要な障害は、ML/DLベースの手法を駆動するリッチなラベル付きデータセットの十分な供給が不可能であることだ。
本稿では,まず,191時間にわたるヒンズーシャニー古典音楽(HCM)録音からなるデータセットをキュレートし,それをラガやトニックレーベルに注釈し,自動ラガ識別(ARI)タスクのためのCNN-LSTMモデルを訓練する。
我々は12のラガ類の部分集合に対して0.89のチャンクワイズf1測度を達成する。
次に、Raga識別のためのSoundLIMEとGradCAM++を用いて、分類器の予測がRagasの人間の理解と一致するかどうかを評価する。
生成した説明を人間の専門家アノテーションと比較し、さらに個別のテスト例を分析し、モデルによる正しい予測や誤った予測を行う際に、説明によって強調される領域の役割を理解する。
本研究の結果は,人間の理解とモデル理解の相違を顕著に示し,本手法の有効性を徹底的な分析により検証した。
関連論文リスト
- Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Investigating Persuasion Techniques in Arabic: An Empirical Study Leveraging Large Language Models [0.13980986259786224]
本稿では、アラビアのソーシャルメディアコンテンツにおける説得的手法の同定に焦点をあてた総合的な実証的研究について述べる。
我々は、プレトレーニング言語モデル(PLM)を利用し、ArAlEvalデータセットを活用する。
本研究では,PLMの力を活用した3つの学習手法について検討した。
論文 参考訳(メタデータ) (2024-05-21T15:55:09Z) - Machine Learning for Actionable Warning Identification: A Comprehensive Survey [19.18364564227752]
Actionable Warning Identification (AWI)は、静的コードアナライザのユーザビリティ向上に重要な役割を果たす。
機械学習(ML)の最近の進歩は、機械学習技術をAWIに組み込むために提案されている。
本稿では、最先端のMLベースのAWIアプローチを体系的にレビューする。
論文 参考訳(メタデータ) (2023-12-01T03:38:21Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Quantifying Human Bias and Knowledge to guide ML models during Training [0.0]
トレーニングプロセスに人間を含めることで、歪んだデータセットを扱うための実験的なアプローチを導入する。
我々は、データセットの特徴の重要性をランク付けし、ランクアグリゲーションを通じて、モデルの初期重みバイアスを決定するよう人間に求める。
我々は、集団的人間の偏見によって、機械学習モデルがバイアス標本の代わりに真の人口についての洞察を学習できることを示した。
論文 参考訳(メタデータ) (2022-11-19T20:49:07Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。