論文の概要: The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection
- arxiv url: http://arxiv.org/abs/2409.11262v1
- Date: Tue, 17 Sep 2024 15:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 16:13:33.985259
- Title: The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection
- Title(参考訳): 家庭の音:音声除去された音声イベント検出用家庭用オーディオデータセット
- Authors: Gabriel Bibbó, Thomas Deacon, Arshdeep Singh, Mark D. Plumbley,
- Abstract要約: 本稿では,高齢者の幸福感向上を目的としたスマートホームアプリケーションのための音声イベント検出研究を支援する住宅用オーディオデータセットを提案する。
このデータセットは、55~80歳の家庭で7日間の音声記録システムを構築して構築される。
事前訓練された音声ニューラルネットワークを用いて、音声を含むセグメントを検出し、除去する新しい音声除去パイプラインを開発した。
- 参考スコア(独自算出の注目度): 15.488319837656702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a residential audio dataset to support sound event detection research for smart home applications aimed at promoting wellbeing for older adults. The dataset is constructed by deploying audio recording systems in the homes of 8 participants aged 55-80 years for a 7-day period. Acoustic characteristics are documented through detailed floor plans and construction material information to enable replication of the recording environments for AI model deployment. A novel automated speech removal pipeline is developed, using pre-trained audio neural networks to detect and remove segments containing spoken voice, while preserving segments containing other sound events. The resulting dataset consists of privacy-compliant audio recordings that accurately capture the soundscapes and activities of daily living within residential spaces. The paper details the dataset creation methodology, the speech removal pipeline utilizing cascaded model architectures, and an analysis of the vocal label distribution to validate the speech removal process. This dataset enables the development and benchmarking of sound event detection models tailored specifically for in-home applications.
- Abstract(参考訳): 本稿では,高齢者の幸福感向上を目的としたスマートホームアプリケーションのための音声イベント検出研究を支援する住宅用オーディオデータセットを提案する。
このデータセットは、55~80歳の8人の家庭に7日間の音声記録システムを展開することで構築される。
音響特性は、詳細なフロアプランと建設材料情報を通して記録され、AIモデル展開のための記録環境の複製を可能にする。
事前訓練された音声ニューラルネットワークを用いて、他の音声イベントを含むセグメントを保存しながら、音声を含むセグメントを検出し、除去する、新しい自動音声除去パイプラインを開発する。
得られたデータセットは、住宅空間内の日常生活の音環境と活動を正確に把握するプライバシーに準拠したオーディオ記録で構成されている。
本稿では,データセット作成手法,カスケードモデルアーキテクチャを利用した音声除去パイプライン,音声ラベル分布の解析を行い,音声除去プロセスの検証を行う。
このデータセットは、家庭内アプリケーションに特化した音響イベント検出モデルの開発とベンチマークを可能にする。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition [1.5106201893222209]
本稿では,家庭環境音に対するデータセット(AGS)を提案する。
このデータセットは、シーン内の様々な種類の重なり合うオーディオ、バックグラウンドノイズを考察する。
論文 参考訳(メタデータ) (2023-08-30T03:03:47Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes
with Spatiotemporal Annotations of Sound Events [30.459545240265246]
音のイベントは通常、視覚的に源となる物体、例えば歩行器の足から発生する音に由来する。
本稿では,音声-視覚的音声イベントの局所化・検出(SELD)タスクを提案する。
オーディオ視覚SELDシステムは、アレーからの信号とオーディオ視覚対応を使って、音イベントを検出し、ローカライズすることができる。
論文 参考訳(メタデータ) (2023-06-15T13:37:14Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Proposal-based Few-shot Sound Event Detection for Speech and
Environmental Sounds with Perceivers [0.7776497736451751]
本稿では,Perceiver アーキテクチャを用いた音声イベント検出のための領域提案手法を提案する。
適切なベンチマークデータセットが欠如しているため、2つの新しい数発の音声イベントローカライゼーションデータセットを生成する。
論文 参考訳(メタデータ) (2021-07-28T19:46:55Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。