論文の概要: Hierarchical Linear Dynamical System for Representing Notes from
Recorded Audio
- arxiv url: http://arxiv.org/abs/2202.13255v1
- Date: Sun, 27 Feb 2022 00:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 18:23:59.465915
- Title: Hierarchical Linear Dynamical System for Representing Notes from
Recorded Audio
- Title(参考訳): 録音音声からの音符表現のための階層線形力学システム
- Authors: Leila Kalantari, Jose Principe, Kathryn E. Sieving
- Abstract要約: 我々は,音符から音符の同時分割と分類を,外れ値の存在下で開発する。
この研究の2つの応用は、音場記録における動物音の検出や音楽学へのバイオ音響学の応用である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We seek to develop simultaneous segmentation and classification of notes from
audio recordings in presence of outliers. The selected architecture for
modeling time series is hierarchical linear dynamical system (HLDS). We propose
a novel method for its parameter setting. HLDS can potentially be employed in
two ways: 1) simultaneous segmentation and clustering for exploring data, i.e.
finding unknown notes, 2) simultaneous segmentation and classification of audio
recording for finding the notes of interest in the presence of outliers. We
adapted HLDS for the second purpose since it is an easier task and still a
challenging problem, e.g. in the field of bioacoustics. Each test clip has the
same notes (but different instances) as of the training clip and also contain
outlier notes. At test, it is automatically decided to which class of interest
a note belongs to if any. Two applications of this work are to the fields of
bioacoustics for detection of animal sounds in audio field recordings and also
to musicology. Experiments have been conducted for segmentation and
classification of both avian and musical notes from recorded audio.
- Abstract(参考訳): 我々は,音符から音符の同時分割と分類を,外れ値の存在下で行うことを目指している。
時系列モデリングのための選択されたアーキテクチャは階層線形力学系(HLDS)である。
パラメータ設定のための新しい手法を提案する。
HLDSは2つの方法で使用することができる。
1)データ探索のための同時セグメンテーションとクラスタリング、すなわち未知のノートを見つけること。
2) 音響記録のセグメンテーションと分類は, 異常値の存在に関心のある音符を見つけるためのものである。
HLDSは簡単な作業であり、生体音響学の分野では難しい問題であるため、第2の目的に適応した。
各テストクリップはトレーニングクリップと同じノート(ただし、異なるインスタンス)を持ち、外れたノートも含んでいる。
テストでは、ノートのどの種類の利害関係者が属しているかが自動的に決定される。
この研究の2つの応用は、音場記録における動物音の検出や音楽学へのバイオ音響学の応用である。
録音音声から鳥音と音符の区分けと分類を行う実験が実施されている。
関連論文リスト
- Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset [6.91815289914328]
本稿では,異種音の自動分類手法について検討する。
手動のアノテーションによってデータセットを構築し、精度、クラスごとの多様な表現、実世界のシナリオにおける関連性を保証する。
実験結果から,音響情報や意味情報をエンコードした音声埋め込みは,分類作業において高い精度を実現することが示された。
論文 参考訳(メタデータ) (2024-10-01T18:09:02Z) - End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Active Learning for Sound Event Detection [18.750572243562576]
本稿では,音事象検出(SED)のための能動的学習システムを提案する。
本研究の目的は,学習したSEDモデルの精度を限定的なアノテーションで最大化することである。
注目すべきは、ターゲット音イベントが稀なデータセットにおいて、必要なアノテーションの労力を大幅に削減できることだ。
論文 参考訳(メタデータ) (2020-02-12T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。