論文の概要: AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition
- arxiv url: http://arxiv.org/abs/2308.15726v1
- Date: Wed, 30 Aug 2023 03:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 14:51:07.200559
- Title: AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition
- Title(参考訳): AGS: 家庭内音響イベント認識のためのデータセットと分類
- Authors: Nan Che and Chenrui Liu and Fei Yu
- Abstract要約: 本稿では,家庭環境音に対するデータセット(AGS)を提案する。
このデータセットは、シーン内の様々な種類の重なり合うオーディオ、バックグラウンドノイズを考察する。
- 参考スコア(独自算出の注目度): 1.5106201893222209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Environmental sound scene and sound event recognition is important for the
recognition of suspicious events in indoor and outdoor environments (such as
nurseries, smart homes, nursing homes, etc.) and is a fundamental task involved
in many audio surveillance applications. In particular, there is no public
common data set for the research field of sound event recognition for the data
set of the indoor environmental sound scene. Therefore, this paper proposes a
data set (called as AGS) for the home environment sound. This data set
considers various types of overlapping audio in the scene, background noise.
Moreover, based on the proposed data set, this paper compares and analyzes the
advanced methods for sound event recognition, and then illustrates the
reliability of the data set proposed in this paper, and studies the challenges
raised by the new data set. Our proposed AGS and the source code of the
corresponding baselines at https://github.com/taolunzu11/AGS .
- Abstract(参考訳): 室内・屋外環境(保育園、スマートハウス、介護施設など)における不審な出来事の認識には,環境音のシーンや音のイベント認識が重要であり,多くのオーディオ監視アプリケーションにおいて基本的な課題となっている。
特に,室内環境音シーンのデータセットに対する音響イベント認識研究分野の一般データセットは存在しない。
そこで本稿では,家庭環境音に対するデータセット(AGS)を提案する。
このデータセットは、シーン内の様々なタイプの重なり合うオーディオ、バックグラウンドノイズを考慮する。
さらに,提案するデータセットに基づいて,音声イベント認識のための高度な手法を比較し分析し,本論文で提案するデータセットの信頼性を示し,新たなデータセットが生み出す課題について検討する。
AGSと対応するベースラインのソースコードはhttps://github.com/taolunzu11/AGSで公開しています。
関連論文リスト
- SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes [10.512055210540668]
参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
論文 参考訳(メタデータ) (2022-02-03T09:41:31Z) - Proposal-based Few-shot Sound Event Detection for Speech and
Environmental Sounds with Perceivers [0.7776497736451751]
本稿では,Perceiver アーキテクチャを用いた音声イベント検出のための領域提案手法を提案する。
適切なベンチマークデータセットが欠如しているため、2つの新しい数発の音声イベントローカライゼーションデータセットを生成する。
論文 参考訳(メタデータ) (2021-07-28T19:46:55Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z) - DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in
Dementia Patients Environment [0.0]
静かで騒々しい環境でエミュレートされたサウンドシーンとイベントで構成された、偏見のない合成国内オーディオデータベースを生成します。
データは、認知症患者の環境で一般的に直面する問題を反映して慎重に収集されます。
クリーンでノイズの多い信号を5秒間隔で抽出し,16kHzで均一にサンプリングした11級データベースを提案する。
論文 参考訳(メタデータ) (2021-04-27T18:51:44Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。