論文の概要: DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in
Dementia Patients Environment
- arxiv url: http://arxiv.org/abs/2104.13423v1
- Date: Tue, 27 Apr 2021 18:51:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 21:42:46.950994
- Title: DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in
Dementia Patients Environment
- Title(参考訳): DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in Dementia patients Environment
- Authors: Abigail Copiaco, Christian Ritz, Stefano Fasciani, Nidhal Abdulaziz
- Abstract要約: 静かで騒々しい環境でエミュレートされたサウンドシーンとイベントで構成された、偏見のない合成国内オーディオデータベースを生成します。
データは、認知症患者の環境で一般的に直面する問題を反映して慎重に収集されます。
クリーンでノイズの多い信号を5秒間隔で抽出し,16kHzで均一にサンプリングした11級データベースを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Access to informative databases is a crucial part of notable research
developments. In the field of domestic audio classification, there have been
significant advances in recent years. Although several audio databases exist,
these can be limited in terms of the amount of information they provide, such
as the exact location of the sound sources, and the associated noise levels. In
this work, we detail our approach on generating an unbiased synthetic domestic
audio database, consisting of sound scenes and events, emulated in both quiet
and noisy environments. Data is carefully curated such that it reflects issues
commonly faced in a dementia patients environment, and recreate scenarios that
could occur in real-world settings. Similarly, the room impulse response
generated is based on a typical one-bedroom apartment at Hebrew SeniorLife
Facility. As a result, we present an 11-class database containing excerpts of
clean and noisy signals at 5-seconds duration each, uniformly sampled at 16
kHz. Using our baseline model using Continues Wavelet Transform Scalograms and
AlexNet, this yielded a weighted F1-score of 86.24 percent.
- Abstract(参考訳): 情報データベースへのアクセスは、注目すべき研究の重要部分である。
近年,家庭内音声分類の分野では大きな進歩を遂げている。
いくつかのオーディオデータベースが存在するが、これらは、音源の正確な位置や関連するノイズレベルなどの情報量に制限される。
本研究では,静音環境と騒音環境の両方でエミュレートされた音声シーンとイベントからなる,非偏りのない合成音声データベースの作成手法について詳述する。
データは、認知症患者環境でよく直面する問題を反映し、現実世界で起こりうるシナリオを再現するように注意深くキュレートされる。
同様に、部屋インパルス応答はヘブライ・シニアライフ施設の典型的な一床アパートに基づいている。
その結果、16kHzで均一にサンプリングされたクリーン信号とノイズ信号の抜粋を5秒間隔で含む11種類のデータベースが得られた。
Continues Wavelet Transform ScalogramsとAlexNetを使ったベースラインモデルにより、重み付きF1スコアは86.24%となった。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - Sound Tagging in Infant-centric Home Soundscapes [30.76025173544015]
本研究では,家庭内における幼児中心音環境における大規模事前学習モデルの性能について検討する。
この結果から,収集したデータセットと公開データセットを組み合わせることで,F1スコアを増大させることで,モデルを微調整できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T00:15:54Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition [1.5106201893222209]
本稿では,家庭環境音に対するデータセット(AGS)を提案する。
このデータセットは、シーン内の様々な種類の重なり合うオーディオ、バックグラウンドノイズを考察する。
論文 参考訳(メタデータ) (2023-08-30T03:03:47Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Deep Sound Field Reconstruction in Real Rooms: Introducing the ISOBEL
Sound Field Dataset [0.0]
本稿では,4つの実室から測定したデータセットを導入し,低周波音場復元の評価を拡張した。
本稿では,低音域マイクロホンを用いた近年の深層学習に基づく音場再構成法について述べる。
論文 参考訳(メタデータ) (2021-02-12T11:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。