論文の概要: Spectrogram features for audio and speech analysis
- arxiv url: http://arxiv.org/abs/2603.14917v1
- Date: Mon, 16 Mar 2026 07:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.129338
- Title: Spectrogram features for audio and speech analysis
- Title(参考訳): 音声・音声分析のためのスペクトログラム機能
- Authors: Ian McLoughlin, Lam Pham, Yan Song, Xiaoxiao Miao, Huy Phan, Pengfei Cai, Qing Gu, Jiang Nan, Haoyu Song, Donny Soh,
- Abstract要約: スペクトログラム(英: spectrogram)は、その2次元の解像度とスパン、および各要素の表現とスケーリングによって特徴づけられる行列である。
本稿では,スペクトログラムに基づく表現の使用について概説し,各タスクにおけるフロントエンド特徴表現選択とバックエンド分類器アーキテクチャとの連携を疑問視する。
- 参考スコア(独自算出の注目度): 24.097665550172223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spectrogram-based representations have grown to dominate the feature space for deep learning audio analysis systems, and are often adopted for speech analysis also. Initially, the primary motivator for spectrogram-based representations was their ability to present sound as a two dimensional signal in the time-frequency plane, which not only provides an interpretable physical basis for analysing sound, but also unlocks the use of a wide range of machine learning techniques such as convolutional neural networks, that had been developed for image processing. A spectrogram is a matrix characterised by the resolution and span of its two dimensions, as well as by the representation and scaling of each element. Many possibilities for these three characteristics have been explored by researchers across numerous application areas, with different settings showing affinity for various tasks. This paper reviews the use of spectrogram-based representations and surveys the state-of-the-art to question how front-end feature representation choice allies with back-end classifier architecture for different tasks.
- Abstract(参考訳): スペクトルに基づく表現は、深層学習音声分析システムにおける特徴空間を支配するように成長し、しばしば音声分析にも採用されている。
当初、スペクトログラムに基づく表現の第一の動機は、音を時間周波数平面に2次元信号として提示する能力であり、これは音を解析するための解釈可能な物理的基盤を提供するだけでなく、画像処理のために開発された畳み込みニューラルネットワークのような幅広い機械学習技術の使用を解放するものである。
スペクトログラム(英: spectrogram)は、その2次元の解像度とスパン、および各要素の表現とスケーリングによって特徴づけられる行列である。
これら3つの特性の可能性が、様々な分野の研究者によって研究され、様々なタスクに親和性を示す様々な設定がされている。
本稿では,スペクトログラムに基づく表現の使用について概説し,各タスクにおけるフロントエンド特徴表現選択とバックエンド分類器アーキテクチャとの連携を疑問視する。
関連論文リスト
- SoundPlot: An Open-Source Framework for Birdsong Acoustic Analysis and Neural Synthesis with Interactive 3D Visualization [0.0]
本稿では,鳥の発声を解析するためのオープンソースのフレームワークSoundPlotを紹介する。
システムは音声信号を多次元音響特徴空間に変換する。
SoundPlotは、バイオ音響学、オーディオ信号処理、計算倫理学の研究を促進するためにMITライセンス下でリリースされた。
論文 参考訳(メタデータ) (2026-01-19T06:17:26Z) - The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding [82.53463660564933]
セマンティックエンコーダは、主に抽象的意味を符号化する低周波成分をキャプチャするが、ピクセルエンコーダは微細な詳細を伝達する高周波情報を保持する。
本稿では,新しい周波数帯域変調器を用いて意味構造と画素の詳細を調和させるモデルであるUnified Autoencoding (UAE)を提案する。
論文 参考訳(メタデータ) (2025-12-22T18:59:57Z) - An overview of neural architectures for self-supervised audio representation learning from masked spectrograms [22.53614046805595]
マスク付きスペクトログラムモデリングは汎用音声表現を学習するための顕著なアプローチとして登場してきた。
本稿では、上記の研究領域の概要を概観し、マスク付きスペクトログラムモデリングとニューラルシーケンスモデリングアーキテクチャについて述べる。
論文 参考訳(メタデータ) (2025-09-23T06:20:41Z) - A Survey of Deep Learning for Complex Speech Spectrograms [17.250690161985517]
近年のディープラーニングの進歩は音声信号処理の分野に大きな影響を与えている。
このサーベイは、複雑なスペクトログラムを処理するためにディープニューラルネットワークを活用する最先端技術の概要を提供する。
論文 参考訳(メタデータ) (2025-05-13T15:53:01Z) - SpectralGaussians: Semantic, spectral 3D Gaussian splatting for multi-spectral scene representation, visualization and analysis [3.8834382997684087]
3次元ガウススプラッティングに基づく新しいクロススペクトルレンダリングフレームワーク(3DGS)を提案する。
このフレームワークは、登録されたマルチビュースペクトルとセグメンテーションマップから、現実的で意味のあるスプラットを生成する。
コントリビューションはマルチスペクトルシーン表現、レンダリング、編集における課題に対処し、多様なアプリケーションに新たな可能性を提供します。
論文 参考訳(メタデータ) (2024-08-13T15:32:54Z) - SpectralGPT: Spectral Remote Sensing Foundation Model [60.023956954916414]
SpectralGPTという名前のユニバーサルRS基盤モデルは、新しい3D生成事前学習変換器(GPT)を用いてスペクトルRS画像を処理するために構築されている。
既存の基礎モデルと比較して、SpectralGPTは、様々なサイズ、解像度、時系列、領域をプログレッシブトレーニング形式で対応し、広範なRSビッグデータのフル活用を可能にする。
我々の評価では、事前訓練されたスペクトルGPTモデルによる顕著な性能向上が強調され、地球科学分野におけるスペクトルRSビッグデータ応用の進展に有意な可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-13T07:09:30Z) - Attentional Graph Convolutional Network for Structure-aware Audio-Visual
Scene Classification [15.559827597608466]
本稿では,構造認識型音声視覚シーン表現のためのエンドツーエンドフレームワーク,すなわち注目グラフ畳み込みネットワーク(AGCN)を提案する。
音声視覚入力の有声領域と文脈情報を適切に表現するために、有声音響グラフ(SAG)と文脈音響グラフ(CAG)を構築する。
最後に、構築されたグラフは、構造認識型オーディオ視覚シーン認識のためのグラフ畳み込みネットワークを通過する。
論文 参考訳(メタデータ) (2022-12-31T07:56:00Z) - Spectral Analysis Network for Deep Representation Learning and Image
Clustering [53.415803942270685]
本稿ではスペクトル分析に基づく教師なし深層表現学習のための新しいネットワーク構造を提案する。
パッチレベルで画像間の局所的な類似性を識別できるため、閉塞に対してより堅牢である。
クラスタリングに親しみやすい表現を学習し、データサンプル間の深い相関を明らかにすることができる。
論文 参考訳(メタデータ) (2020-09-11T05:07:15Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。