論文の概要: An Acoustic Segment Model Based Segment Unit Selection Approach to
Acoustic Scene Classification with Partial Utterances
- arxiv url: http://arxiv.org/abs/2008.00107v1
- Date: Fri, 31 Jul 2020 23:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:55:25.029646
- Title: An Acoustic Segment Model Based Segment Unit Selection Approach to
Acoustic Scene Classification with Partial Utterances
- Title(参考訳): 部分発話を用いた音響シーン分類における音響セグメントモデルに基づくセグメント単位選択手法
- Authors: Hu Hu, Sabato Marco Siniscalchi, Yannan Wang, Xue Bai, Jun Du,
Chin-Hui Lee
- Abstract要約: 音響シーン分類(ASC)のためのほとんど情報を持たない録音音声の音響セグメントを除去する枠組みを提案する。
本手法は,全体の音響シーン空間を包含する音響セグメントユニットの普遍的集合の上に構築されている。
DCASE 2018データセットでは、シーン分類の精度が68%、全発話で72.1%、セグメント選択で上昇している。
- 参考スコア(独自算出の注目度): 70.71369660599447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a sub-utterance unit selection framework to remove
acoustic segments in audio recordings that carry little information for
acoustic scene classification (ASC). Our approach is built upon a universal set
of acoustic segment units covering the overall acoustic scene space. First,
those units are modeled with acoustic segment models (ASMs) used to tokenize
acoustic scene utterances into sequences of acoustic segment units. Next,
paralleling the idea of stop words in information retrieval, stop ASMs are
automatically detected. Finally, acoustic segments associated with the stop
ASMs are blocked, because of their low indexing power in retrieval of most
acoustic scenes. In contrast to building scene models with whole utterances,
the ASM-removed sub-utterances, i.e., acoustic utterances without stop acoustic
segments, are then used as inputs to the AlexNet-L back-end for final
classification. On the DCASE 2018 dataset, scene classification accuracy
increases from 68%, with whole utterances, to 72.1%, with segment selection.
This represents a competitive accuracy without any data augmentation, and/or
ensemble strategy. Moreover, our approach compares favourably to AlexNet-L with
attention.
- Abstract(参考訳): 本稿では,音響シーン分類(asc)のための情報が少ない音声録音における音響セグメントを除去するサブ発話単位選択フレームワークを提案する。
このアプローチは,音響シーン全体の空間をカバーする音響セグメント単位の普遍セットを基盤としている。
まず、これらの単位を音響セグメントモデル(ASM)でモデル化し、音響シーンの発話を音響セグメント単位のシーケンスにトークン化する。
次に、情報検索における停止語の概念と並行して、ASMを自動的に検出する。
最後に、ほとんどの音響シーンの検索においてインデックス化能力の低いため、停止ASMに関連する音響セグメントをブロックする。
全発話を含むシーンモデルとは対照的に、ASM除去サブ発話、すなわち音節を停止しない音響発話は、最終分類のためのAlexNet-Lバックエンドへの入力として使用される。
dcase 2018データセットでは、シーン分類の精度が、発話全体の68%からセグメント選択による72.1%に向上した。
これはデータ拡張やアンサンブル戦略を使わずに競合する精度を示す。
さらに,本手法は注意を払ってAlexNet-Lと比較した。
関連論文リスト
- Multi-label Zero-Shot Audio Classification with Temporal Attention [8.518434546898524]
本研究では,マルチラベルゼロショット音声分類を行う手法を提案する。
我々は時間的注意を適応させ、その音響的および意味的適合性に基づいて、異なる音声セグメントに重みを割り当てる。
その結果,時間的注意がマルチラベルシナリオにおけるゼロショット音声分類性能を向上させることがわかった。
論文 参考訳(メタデータ) (2024-08-31T09:49:41Z) - Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual Segmentation [17.123212921673176]
本稿では,SAMのエンコーダとマスクデコーダの中間部分に組み込まれた時空間バイビジュアルアテンション(ST-B)モジュールを提案する。
ビデオフレームとオーディオストリーム間の時間的対応を伝達するために、オーディオ視覚機能を適応的に更新する。
提案手法は, AVSベンチマークの最先端手法, 特に8.3% mIoU が, 挑戦的なマルチソースサブセットよりも優れている。
論文 参考訳(メタデータ) (2024-06-10T10:53:23Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context [53.80051967863102]
音響シーン分類(ASC)の包括的解析について述べる。
ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。
次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
論文 参考訳(メタデータ) (2022-10-16T19:07:21Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Acoustic Data-Driven Subword Modeling for End-to-End Speech Recognition [46.675712485821805]
単語単位は通常、エンドツーエンドの自動音声認識(ASR)に使用される。
本稿では,複数のテキストベースおよび音響ベースサブワード手法の利点を1つのパイプラインに適応させる音響データ駆動サブワードモデリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-19T07:54:15Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Acoustic Scene Classification with Squeeze-Excitation Residual Networks [4.591851728010269]
残差学習に基づくCNNベースのASCフレームワークの精度を向上させるために,2つの新しい圧縮励起ブロックを提案する。
このような演算子を実装したブロックの振舞いは、ブロックへの入力に応じてニューラルネットワーク全体を変更することができる。
論文 参考訳(メタデータ) (2020-03-20T14:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。