論文の概要: Explainability of CNN Based Classification Models for Acoustic Signal
- arxiv url: http://arxiv.org/abs/2509.08717v1
- Date: Wed, 10 Sep 2025 16:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.489054
- Title: Explainability of CNN Based Classification Models for Acoustic Signal
- Title(参考訳): 音響信号に対するCNNに基づく分類モデルの説明可能性
- Authors: Zubair Faruqui, Mackenzie S. McIntire, Rahul Dubey, Jay McEntee,
- Abstract要約: 北米各地の地理的な変化が強い鳥類の発声について検討した。
モデルの予測を解釈するために、モデル非依存(LIME, SHAP)とモデル固有(DeepLIFT, Grad-CAM)XAI技術を適用した。
これらのテクニックは異なるが相補的な説明を生み出し、それらの説明が一緒に検討されると、モデルの意思決定に関するより完全で解釈可能な洞察を提供した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable Artificial Intelligence (XAI) has emerged as a critical tool for interpreting the predictions of complex deep learning models. While XAI has been increasingly applied in various domains within acoustics, its use in bioacoustics, which involves analyzing audio signals from living organisms, remains relatively underexplored. In this paper, we investigate the vocalizations of a bird species with strong geographic variation throughout its range in North America. Audio recordings were converted into spectrogram images and used to train a deep Convolutional Neural Network (CNN) for classification, achieving an accuracy of 94.8\%. To interpret the model's predictions, we applied both model-agnostic (LIME, SHAP) and model-specific (DeepLIFT, Grad-CAM) XAI techniques. These techniques produced different but complementary explanations, and when their explanations were considered together, they provided more complete and interpretable insights into the model's decision-making. This work highlights the importance of using a combination of XAI techniques to improve trust and interoperability, not only in broader acoustics signal analysis but also argues for broader applicability in different domain specific tasks.
- Abstract(参考訳): 説明可能な人工知能(XAI)は、複雑なディープラーニングモデルの予測を解釈するための重要なツールとして登場した。
XAIは、音響学の様々な分野に適用されているが、生体からの音声信号を解析するバイオ音響学での利用は、いまだにあまり研究されていない。
本稿では,北米各地の地理的な変化が強い鳥類の発声について検討する。
音声記録は分光画像に変換され、分類のための深層畳み込みニューラルネットワーク(CNN)の訓練に使用され、94.8\%の精度を実現した。
モデルの予測を解釈するために、モデル非依存(LIME, SHAP)とモデル固有(DeepLIFT, Grad-CAM)XAI技術を適用した。
これらのテクニックは異なるが相補的な説明を生み出し、それらの説明が一緒に検討されると、モデルの意思決定に関するより完全で解釈可能な洞察を提供した。
この研究は、信頼と相互運用性を改善するためにXAI技術を組み合わせることの重要性を強調している。
関連論文リスト
- Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - What Does an Audio Deepfake Detector Focus on? A Study in the Time Domain [4.8975242634878295]
本稿では, 関連性に基づく説明可能なAI(XAI)手法を提案する。
我々は、限られた発話のみを研究する従来の研究とは異なり、大規模なデータセットを考慮に入れている。
音声・非音声・音声・音声・オフセットの相対的重要性に関するさらなる調査は、大きなデータセットで評価すると、限られた発話の分析から得られたXAI結果が必ずしも保持されないことを示唆している。
論文 参考訳(メタデータ) (2025-01-23T18:00:14Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Underwater SONAR Image Classification and Analysis using LIME-based Explainable Artificial Intelligence [0.0]
本稿では,水中画像分類結果の解釈に,eXplainable Artificial Intelligence (XAI)ツールの適用について検討する。
ベンチマーク畳み込みニューラルネットワーク(CNN)アーキテクチャを用いた画像分類のための転写学習手法の広範な解析を行う。
XAIのテクニックは、結果の解釈可能性をより人間に準拠した方法で強調することで、信頼性と信頼性を高めます。
論文 参考訳(メタデータ) (2024-08-23T04:54:18Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - AudioProtoPNet: An interpretable deep learning model for bird sound classification [1.49199020343864]
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。
これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。
このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
論文 参考訳(メタデータ) (2024-04-16T09:37:41Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。