論文の概要: Symbolic Audio Classification via Modal Decision Tree Learning
- arxiv url: http://arxiv.org/abs/2503.17018v1
- Date: Fri, 21 Mar 2025 10:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:34.433573
- Title: Symbolic Audio Classification via Modal Decision Tree Learning
- Title(参考訳): モーダル決定木学習による記号音声分類
- Authors: Enrico Marzano, Giovanni Pagliarini, Riccardo Pasini, Guido Sciavicco, Ionel Eduard Stan,
- Abstract要約: 本研究では,年齢と性別の認識,感情分類,呼吸器疾患の診断などの音声タスクについて検討する。
私たちはそれらを、象徴的なテクニック、すなわち(モダル)決定木学習でアプローチします。
このようなタスクは、非常に高い精度と低い複雑さで単純なルールを抽出できる同じシンボリックパイプラインを使って解決できることを実証する。
- 参考スコア(独自算出の注目度): 0.5592394503914488
- License:
- Abstract: The range of potential applications of acoustic analysis is wide. Classification of sounds, in particular, is a typical machine learning task that received a lot of attention in recent years. The most common approaches to sound classification are sub-symbolic, typically based on neural networks, and result in black-box models with high performances but very low transparency. In this work, we consider several audio tasks, namely, age and gender recognition, emotion classification, and respiratory disease diagnosis, and we approach them with a symbolic technique, that is, (modal) decision tree learning. We prove that such tasks can be solved using the same symbolic pipeline, that allows to extract simple rules with very high accuracy and low complexity. In principle, all such tasks could be associated to an autonomous conversation system, which could be useful in different contexts, such as an automatic reservation agent for an hospital or a clinic.
- Abstract(参考訳): 音響解析の応用範囲は広い。
特に音の分類は、近年多くの注目を集めている典型的な機械学習タスクである。
音響分類における最も一般的なアプローチはサブシンボリックであり、通常はニューラルネットワークに基づいており、結果として高い性能を持つが透明性の低いブラックボックスモデルが得られる。
本研究では,年齢と性別の認識,感情分類,呼吸器疾患の診断など,いくつかの音声タスクについて検討し,それを記号的手法,すなわち(モーダル)決定木学習を用いてアプローチする。
このようなタスクは,非常に高い精度と低い複雑さで単純なルールを抽出できる,同じシンボルパイプラインを用いて解決できることを実証する。
原則として、このようなタスクはすべて、病院やクリニックの自動予約エージェントなど、さまざまな状況で有用な自律会話システムに関連付けることができる。
関連論文リスト
- Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset [6.91815289914328]
本稿では,異種音の自動分類手法について検討する。
手動のアノテーションによってデータセットを構築し、精度、クラスごとの多様な表現、実世界のシナリオにおける関連性を保証する。
実験結果から,音響情報や意味情報をエンコードした音声埋め込みは,分類作業において高い精度を実現することが示された。
論文 参考訳(メタデータ) (2024-10-01T18:09:02Z) - Self-supervised Learning for Acoustic Few-Shot Classification [10.180992026994739]
我々は、CNNに基づく前処理と状態空間モデル(SSM)に基づく特徴抽出を組み合わせた新しいアーキテクチャを導入、評価する。
実際のタスクデータに対するコントラスト学習と,それに続くラベル付きデータによる微調整を用いて,このアーキテクチャを事前学習する。
本評価は, 数発の分類問題において, 最先端のアーキテクチャよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-15T07:45:11Z) - Influence based explainability of brain tumors segmentation in multimodal Magnetic Resonance Imaging [3.1994667952195273]
本稿では,医用画像タスクのセグメンテーションに焦点をあて,これまで提案されてきたほとんどの説明可能性手法が入力唾液マップの視覚的説明を提供する。
この研究の目的は、もともと分類タスクのために提案された影響ベースの説明可能性アルゴリズムであるTracInを拡張し、実装し、テストすることである。
論文 参考訳(メタデータ) (2024-04-05T17:07:21Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Interpreting deep urban sound classification using Layer-wise Relevance
Propagation [5.177947445379688]
本研究は, 都市音分類のためのディープニューラルネットワークを構築することにより, 聴覚障害に悩まされるドライバの敏感な応用に焦点を当てた。
我々は,MelとConstant-Qスペクトログラムの2つの異なる音声信号表現を使用し,ディープニューラルネットワークによる決定は,レイヤワイド関連伝搬によって説明される。
総合的に、深層都市音の分類を理解するための説明可能なAIフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-19T14:15:45Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Respiratory Sound Classification Using Long-Short Term Memory [62.997667081978825]
本稿では,呼吸器疾患の分類に関連して,音の分類を行おうとする際の問題点について検討する。
このようなタスクをどのように実装できるかを特定するために、ディープラーニングと長期短期記憶ネットワークの使用の検討を行う。
論文 参考訳(メタデータ) (2020-08-06T23:11:57Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。