Fugu-MT 論文翻訳(概要): DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in Dementia Patients Environment

論文の概要: DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in Dementia Patients Environment

arxiv url: http://arxiv.org/abs/2104.13423v1
Date: Tue, 27 Apr 2021 18:51:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-29 21:42:46.950994
Title: DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in Dementia Patients Environment
Title（参考訳）: DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in Dementia patients Environment
Authors: Abigail Copiaco, Christian Ritz, Stefano Fasciani, Nidhal Abdulaziz
Abstract要約: 静かで騒々しい環境でエミュレートされたサウンドシーンとイベントで構成された、偏見のない合成国内オーディオデータベースを生成します。データは、認知症患者の環境で一般的に直面する問題を反映して慎重に収集されます。クリーンでノイズの多い信号を5秒間隔で抽出し,16kHzで均一にサンプリングした11級データベースを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Access to informative databases is a crucial part of notable research developments. In the field of domestic audio classification, there have been significant advances in recent years. Although several audio databases exist, these can be limited in terms of the amount of information they provide, such as the exact location of the sound sources, and the associated noise levels. In this work, we detail our approach on generating an unbiased synthetic domestic audio database, consisting of sound scenes and events, emulated in both quiet and noisy environments. Data is carefully curated such that it reflects issues commonly faced in a dementia patients environment, and recreate scenarios that could occur in real-world settings. Similarly, the room impulse response generated is based on a typical one-bedroom apartment at Hebrew SeniorLife Facility. As a result, we present an 11-class database containing excerpts of clean and noisy signals at 5-seconds duration each, uniformly sampled at 16 kHz. Using our baseline model using Continues Wavelet Transform Scalograms and AlexNet, this yielded a weighted F1-score of 86.24 percent.
Abstract（参考訳）: 情報データベースへのアクセスは、注目すべき研究の重要部分である。近年,家庭内音声分類の分野では大きな進歩を遂げている。いくつかのオーディオデータベースが存在するが、これらは、音源の正確な位置や関連するノイズレベルなどの情報量に制限される。本研究では,静音環境と騒音環境の両方でエミュレートされた音声シーンとイベントからなる,非偏りのない合成音声データベースの作成手法について詳述する。データは、認知症患者環境でよく直面する問題を反映し、現実世界で起こりうるシナリオを再現するように注意深くキュレートされる。同様に、部屋インパルス応答はヘブライ・シニアライフ施設の典型的な一床アパートに基づいている。その結果、16kHzで均一にサンプリングされたクリーン信号とノイズ信号の抜粋を5秒間隔で含む11種類のデータベースが得られた。 Continues Wavelet Transform ScalogramsとAlexNetを使ったベースラインモデルにより、重み付きF1スコアは86.24%となった。

関連論文リスト

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence [81.94084852268468]
時間と3次元空間における音波力学の推論として定義される音声4次元インテリジェンスを形式化する。 STAR-Benchは、基礎的な音響知覚設定とホロスティックな時空間推論設定を組み合わせる。データキュレーションパイプラインは、高品質なサンプルを保証するために2つの方法を使用します。
論文参考訳（メタデータ） (2025-10-28T17:50:34Z)
Sci-Phi: A Large Language Model Spatial Audio Descriptor [25.302416479626974]
Sci-Phi は空間空間エンコーダとスペクトルエンコーダを備えた空間音響モデルである。 1回のパスで最大4つの方向の音源を列挙し、記述する。性能をわずかに低下させるだけで、実際の部屋のインパルス応答に一般化する。
論文参考訳（メタデータ） (2025-10-07T03:06:02Z)
Audio-Based Pedestrian Detection in the Presence of Vehicular Noise [39.631104350049945]
本稿では,車体騒音の存在下でのオーディオに基づく歩行者検出における,新しいデータセット,結果,および最先端技術に関する詳細な分析について述べる。本研究では, (i) 雑音と雑音に制限された環境間のクロスデータセット評価, (ii) ノイズがモデル性能に与える影響の評価, (iii) ドメイン外の音に対するモデルの予測ロバスト性の評価の3つの分析を行った。
論文参考訳（メタデータ） (2025-09-23T17:57:44Z)
NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文参考訳（メタデータ） (2024-07-09T06:18:40Z)
Sound Tagging in Infant-centric Home Soundscapes [30.76025173544015]
本研究では,家庭内における幼児中心音環境における大規模事前学習モデルの性能について検討する。この結果から,収集したデータセットと公開データセットを組み合わせることで,F1スコアを増大させることで,モデルを微調整できることが示唆された。
論文参考訳（メタデータ） (2024-06-25T00:15:54Z)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。 AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳（メタデータ） (2024-06-13T08:34:12Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition [1.5106201893222209]
本稿では,家庭環境音に対するデータセット(AGS)を提案する。このデータセットは、シーン内の様々な種類の重なり合うオーディオ、バックグラウンドノイズを考察する。
論文参考訳（メタデータ） (2023-08-30T03:03:47Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文参考訳（メタデータ） (2023-05-03T08:25:37Z)
Learning with Noisy Labels Revisited: A Study Using Real-World Human Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文参考訳（メタデータ） (2021-10-22T22:42:11Z)
Bridging the Gap Between Clean Data Training and Real-World Inference for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文参考訳（メタデータ） (2021-04-13T17:54:33Z)
Deep Sound Field Reconstruction in Real Rooms: Introducing the ISOBEL Sound Field Dataset [0.0]
本稿では,4つの実室から測定したデータセットを導入し,低周波音場復元の評価を拡張した。本稿では,低音域マイクロホンを用いた近年の深層学習に基づく音場再構成法について述べる。
論文参考訳（メタデータ） (2021-02-12T11:34:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。