論文の概要: AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition
- arxiv url: http://arxiv.org/abs/2308.15726v1
- Date: Wed, 30 Aug 2023 03:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 14:51:07.200559
- Title: AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition
- Title(参考訳): AGS: 家庭内音響イベント認識のためのデータセットと分類
- Authors: Nan Che and Chenrui Liu and Fei Yu
- Abstract要約: 本稿では,家庭環境音に対するデータセット(AGS)を提案する。
このデータセットは、シーン内の様々な種類の重なり合うオーディオ、バックグラウンドノイズを考察する。
- 参考スコア(独自算出の注目度): 1.5106201893222209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Environmental sound scene and sound event recognition is important for the
recognition of suspicious events in indoor and outdoor environments (such as
nurseries, smart homes, nursing homes, etc.) and is a fundamental task involved
in many audio surveillance applications. In particular, there is no public
common data set for the research field of sound event recognition for the data
set of the indoor environmental sound scene. Therefore, this paper proposes a
data set (called as AGS) for the home environment sound. This data set
considers various types of overlapping audio in the scene, background noise.
Moreover, based on the proposed data set, this paper compares and analyzes the
advanced methods for sound event recognition, and then illustrates the
reliability of the data set proposed in this paper, and studies the challenges
raised by the new data set. Our proposed AGS and the source code of the
corresponding baselines at https://github.com/taolunzu11/AGS .
- Abstract(参考訳): 室内・屋外環境(保育園、スマートハウス、介護施設など)における不審な出来事の認識には,環境音のシーンや音のイベント認識が重要であり,多くのオーディオ監視アプリケーションにおいて基本的な課題となっている。
特に,室内環境音シーンのデータセットに対する音響イベント認識研究分野の一般データセットは存在しない。
そこで本稿では,家庭環境音に対するデータセット(AGS)を提案する。
このデータセットは、シーン内の様々なタイプの重なり合うオーディオ、バックグラウンドノイズを考慮する。
さらに,提案するデータセットに基づいて,音声イベント認識のための高度な手法を比較し分析し,本論文で提案するデータセットの信頼性を示し,新たなデータセットが生み出す課題について検討する。
AGSと対応するベースラインのソースコードはhttps://github.com/taolunzu11/AGSで公開しています。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection [15.488319837656702]
本稿では,高齢者の幸福感向上を目的としたスマートホームアプリケーションのための音声イベント検出研究を支援する住宅用オーディオデータセットを提案する。
このデータセットは、55~80歳の家庭で7日間の音声記録システムを構築して構築される。
事前訓練された音声ニューラルネットワークを用いて、音声を含むセグメントを検出し、除去する新しい音声除去パイプラインを開発した。
論文 参考訳(メタデータ) (2024-09-17T15:10:36Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes [10.512055210540668]
参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
論文 参考訳(メタデータ) (2022-02-03T09:41:31Z) - Proposal-based Few-shot Sound Event Detection for Speech and
Environmental Sounds with Perceivers [0.7776497736451751]
本稿では,Perceiver アーキテクチャを用いた音声イベント検出のための領域提案手法を提案する。
適切なベンチマークデータセットが欠如しているため、2つの新しい数発の音声イベントローカライゼーションデータセットを生成する。
論文 参考訳(メタデータ) (2021-07-28T19:46:55Z) - DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in
Dementia Patients Environment [0.0]
静かで騒々しい環境でエミュレートされたサウンドシーンとイベントで構成された、偏見のない合成国内オーディオデータベースを生成します。
データは、認知症患者の環境で一般的に直面する問題を反映して慎重に収集されます。
クリーンでノイズの多い信号を5秒間隔で抽出し,16kHzで均一にサンプリングした11級データベースを提案する。
論文 参考訳(メタデータ) (2021-04-27T18:51:44Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。