論文の概要: DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in
Dementia Patients Environment
- arxiv url: http://arxiv.org/abs/2104.13423v1
- Date: Tue, 27 Apr 2021 18:51:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 21:42:46.950994
- Title: DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in
Dementia Patients Environment
- Title(参考訳): DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in Dementia patients Environment
- Authors: Abigail Copiaco, Christian Ritz, Stefano Fasciani, Nidhal Abdulaziz
- Abstract要約: 静かで騒々しい環境でエミュレートされたサウンドシーンとイベントで構成された、偏見のない合成国内オーディオデータベースを生成します。
データは、認知症患者の環境で一般的に直面する問題を反映して慎重に収集されます。
クリーンでノイズの多い信号を5秒間隔で抽出し,16kHzで均一にサンプリングした11級データベースを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Access to informative databases is a crucial part of notable research
developments. In the field of domestic audio classification, there have been
significant advances in recent years. Although several audio databases exist,
these can be limited in terms of the amount of information they provide, such
as the exact location of the sound sources, and the associated noise levels. In
this work, we detail our approach on generating an unbiased synthetic domestic
audio database, consisting of sound scenes and events, emulated in both quiet
and noisy environments. Data is carefully curated such that it reflects issues
commonly faced in a dementia patients environment, and recreate scenarios that
could occur in real-world settings. Similarly, the room impulse response
generated is based on a typical one-bedroom apartment at Hebrew SeniorLife
Facility. As a result, we present an 11-class database containing excerpts of
clean and noisy signals at 5-seconds duration each, uniformly sampled at 16
kHz. Using our baseline model using Continues Wavelet Transform Scalograms and
AlexNet, this yielded a weighted F1-score of 86.24 percent.
- Abstract(参考訳): 情報データベースへのアクセスは、注目すべき研究の重要部分である。
近年,家庭内音声分類の分野では大きな進歩を遂げている。
いくつかのオーディオデータベースが存在するが、これらは、音源の正確な位置や関連するノイズレベルなどの情報量に制限される。
本研究では,静音環境と騒音環境の両方でエミュレートされた音声シーンとイベントからなる,非偏りのない合成音声データベースの作成手法について詳述する。
データは、認知症患者環境でよく直面する問題を反映し、現実世界で起こりうるシナリオを再現するように注意深くキュレートされる。
同様に、部屋インパルス応答はヘブライ・シニアライフ施設の典型的な一床アパートに基づいている。
その結果、16kHzで均一にサンプリングされたクリーン信号とノイズ信号の抜粋を5秒間隔で含む11種類のデータベースが得られた。
Continues Wavelet Transform ScalogramsとAlexNetを使ったベースラインモデルにより、重み付きF1スコアは86.24%となった。
関連論文リスト
- BAT: Learning to Reason about Spatial Sounds with Large Language Models [48.48501269805149]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - Spatial Scaper: A Library to Simulate and Augment Soundscapes for Sound
Event Localization and Detection in Realistic Rooms [4.266697413924045]
音事象の局所化と検出(SELD)は、機械聴取において重要な課題である。
本研究では,SELDデータシミュレーションと拡張のためのライブラリであるSpatialScaperを紹介する。
論文 参考訳(メタデータ) (2024-01-19T19:01:13Z) - AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition [1.5106201893222209]
本稿では,家庭環境音に対するデータセット(AGS)を提案する。
このデータセットは、シーン内の様々な種類の重なり合うオーディオ、バックグラウンドノイズを考察する。
論文 参考訳(メタデータ) (2023-08-30T03:03:47Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [51.42020333199243]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - Blind Restoration of Real-World Audio by 1D Operational GANs [18.462912387382346]
Op-GAN(Operational Generative Adversarial Networks)による実世界の音声信号のブラインド復元手法を提案する。
提案手法はTIMIT-RAR(音声)とGTZAN-RAR(非音声)のベンチマークで広く評価されている。
平均SDRの改善は7.2dB以上と4.9dB以上である。
論文 参考訳(メタデータ) (2022-12-30T10:11:57Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Deep Sound Field Reconstruction in Real Rooms: Introducing the ISOBEL
Sound Field Dataset [0.0]
本稿では,4つの実室から測定したデータセットを導入し,低周波音場復元の評価を拡張した。
本稿では,低音域マイクロホンを用いた近年の深層学習に基づく音場再構成法について述べる。
論文 参考訳(メタデータ) (2021-02-12T11:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。