論文の概要: Spectrotemporal Modulation: Efficient and Interpretable Feature Representation for Classifying Speech, Music, and Environmental Sounds
- arxiv url: http://arxiv.org/abs/2505.23509v1
- Date: Thu, 29 May 2025 14:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.916355
- Title: Spectrotemporal Modulation: Efficient and Interpretable Feature Representation for Classifying Speech, Music, and Environmental Sounds
- Title(参考訳): スペクトル時間変調:音声・音楽・環境音の分類のための効率的かつ解釈可能な特徴表現
- Authors: Andrew Chang, Yike Li, Iran R. Roman, David Poeppel,
- Abstract要約: 本研究では,ヒト聴覚皮質の神経生理学的表現を模倣する信号処理法である,分光時間変調(STM)の特徴に着目した新しいアプローチを提案する。
STMに基づくモデルの分類性能は、事前訓練なしに、様々な自然主義的音声、音楽、環境音の事前訓練されたDNNに匹敵する。
これらの結果から,STMは音声分類のための効率的かつ解釈可能な特徴表現であり,音声や聴覚科学の基本的な理解や,BCIや認知コンピューティングの発達にともなって,機械聴取とアンロックによるエキサイティングな新たな可能性の開拓が進んでいることが示唆された。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio DNNs have demonstrated impressive performance on various machine listening tasks; however, most of their representations are computationally costly and uninterpretable, leaving room for optimization. Here, we propose a novel approach centered on spectrotemporal modulation (STM) features, a signal processing method that mimics the neurophysiological representation in the human auditory cortex. The classification performance of our STM-based model, without any pretraining, is comparable to that of pretrained audio DNNs across diverse naturalistic speech, music, and environmental sounds, which are essential categories for both human cognition and machine perception. These results show that STM is an efficient and interpretable feature representation for audio classification, advancing the development of machine listening and unlocking exciting new possibilities for basic understanding of speech and auditory sciences, as well as developing audio BCI and cognitive computing.
- Abstract(参考訳): オーディオDNNは、様々な機械聴取タスクにおいて印象的な性能を示してきたが、その表現のほとんどは計算コストが高く、解釈不能であり、最適化の余地を残している。
本稿では,ヒト聴覚皮質の神経生理学的表現を模倣する信号処理法である,分光時間変調(STM)の特徴に着目した新しいアプローチを提案する。
事前学習のないSTMモデルの分類性能は、人間の認知と機械知覚の両方に欠かせない、多様な自然主義的音声、音楽、環境音の事前訓練されたDNNに匹敵する。
これらの結果から,STMは音声分類のための効率的かつ解釈可能な特徴表現であり,音声や聴覚科学の基本的な理解や,BCIや認知コンピューティングの発達にともなって,機械聴取とアンロックによるエキサイティングな新たな可能性の開拓が進んでいることが示唆された。
関連論文リスト
- Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture [0.0]
本稿では,ある音声音響に係わる舌と唇の調音特徴を予測するための新しい手法を提案する。
提案するネットワークは,同時記録音声とEMA(Electromagnetic Articulography)データセットの2つのデータセットで訓練されている。
論文 参考訳(メタデータ) (2025-04-25T05:57:22Z) - Fundamental Survey on Neuromorphic Based Audio Classification [0.5530212768657544]
本調査は,ニューロモルフィックに基づく音声分類における現状を徹底的に検証する。
スパイキングニューラルネットワーク(SNN)、メムリスタ、ニューロモルフィックハードウェアプラットフォームなど、ニューロモルフィックシステムの重要なコンポーネントを網羅している。
これらの手法は、特にエネルギー効率、リアルタイム処理、環境騒音に対する堅牢性の観点から、従来の音声分類手法の限界にどのように対処するかを検討する。
論文 参考訳(メタデータ) (2025-02-20T21:34:32Z) - Reverse the auditory processing pathway: Coarse-to-fine audio reconstruction from fMRI [20.432212333539628]
本稿では,機能的磁気共鳴画像(fMRI)データに基づく,より粗い音響再構成手法を提案する。
我々は,3つの公開fMRIデータセットであるBrain2Sound,Brain2Music,Brain2Speechについて検証を行った。
復号化時に意味的プロンプトを用いることで,意味的特徴が最適でない場合に,再構成音声の品質を向上させる。
論文 参考訳(メタデータ) (2024-05-29T03:16:14Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Joint Blind Room Acoustic Characterization From Speech And Music Signals
Using Convolutional Recurrent Neural Networks [13.12834490248018]
残響時間、明瞭度、直接残響比は、残響環境を記述するために定義された音響パラメータである。
最近の音声と機械学習を組み合わせると、これらのパラメータは音声や音楽信号を使って盲目的に推定できる。
音声および/または音楽信号を用いた視覚的関節音響パラメータ推定のための頑健なエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。