論文の概要: Crowdotic: A Privacy-Preserving Hospital Waiting Room Crowd Density
Estimation with Non-speech Audio
- arxiv url: http://arxiv.org/abs/2309.10280v2
- Date: Wed, 20 Sep 2023 23:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 11:50:02.879286
- Title: Crowdotic: A Privacy-Preserving Hospital Waiting Room Crowd Density
Estimation with Non-speech Audio
- Title(参考訳): crowdotic:非音声によるプライバシー保護型待合室群集密度推定
- Authors: Forsad Al Hossain, Tanjid Hasan Tonmoy, Andrew A. Lover, George A.
Corey, Mohammad Arif Ul Alam, Tauhidur Rahman
- Abstract要約: クラウド分析のための非音声音声に基づくアプローチを提案する。
非音声のみを用いて、顕著な精度でそのような分析を行うことができる。
- 参考スコア(独自算出の注目度): 4.149485024539117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Privacy-preserving crowd density analysis finds application across a wide
range of scenarios, substantially enhancing smart building operation and
management while upholding privacy expectations in various spaces. We propose a
non-speech audio-based approach for crowd analytics, leveraging a
transformer-based model. Our results demonstrate that non-speech audio alone
can be used to conduct such analysis with remarkable accuracy. To the best of
our knowledge, this is the first time when non-speech audio signals are
proposed for predicting occupancy. As far as we know, there has been no other
similar approach of its kind prior to this. To accomplish this, we deployed our
sensor-based platform in the waiting room of a large hospital with IRB approval
over a period of several months to capture non-speech audio and thermal images
for the training and evaluation of our models. The proposed non-speech-based
approach outperformed the thermal camera-based model and all other baselines.
In addition to demonstrating superior performance without utilizing speech
audio, we conduct further analysis using differential privacy techniques to
provide additional privacy guarantees. Overall, our work demonstrates the
viability of employing non-speech audio data for accurate occupancy estimation,
while also ensuring the exclusion of speech-related content and providing
robust privacy protections through differential privacy guarantees.
- Abstract(参考訳): プライバシを保存する群衆密度分析は、さまざまなシナリオにまたがるアプリケーションを見つけ、さまざまな領域におけるプライバシーの期待を保ちながら、スマートなビルディング操作と管理を大幅に強化する。
本稿では,トランスフォーマーモデルを利用した非音声音声によるクラウド分析手法を提案する。
以上の結果から,非音声のみを高精度に解析できることを示した。
我々の知る限りでは、非音声音声信号が占有率を予測するために提案されるのはこれが初めてである。
われわれが知る限り、この種のアプローチはこれ以前には他に類を見ない。
これを実現するために,我々はセンサベースのプラットフォームを大規模病院の待合室に配置し,数ヶ月間にわたりirbの承認を得て,モデルのトレーニングと評価のための非音声とサーマルイメージをキャプチャした。
提案手法はサーマルカメラベースモデルや他のベースラインよりも優れていた。
音声を使わずに優れた性能を示すことに加えて、差分プライバシー技術を用いてさらなる分析を行い、さらなるプライバシー保証を提供する。
全体として本研究は,非音声データを正確な占有率推定に活用し,音声関連コンテンツの排除と,差分プライバシー保証による堅牢なプライバシー保護を提供することを実証する。
関連論文リスト
- SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - REWIND Dataset: Privacy-preserving Speaking Status Segmentation from
Multimodal Body Movement Signals in the Wild [14.5263556841263]
プロフェッショナルなネットワークイベントにおいて,33人の被験者による高品質な個人音声記録を備えた,初めて公開されているマルチモーダルデータセットを提示する。
いずれの場合も、従来のデータセットでは利用できない時間分解能である音声から抽出した20Hzのバイナリ音声のステータス信号を予測する。
論文 参考訳(メタデータ) (2024-03-02T15:14:58Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Long-term Conversation Analysis: Exploring Utility and Privacy [12.380029887841175]
入力特徴量削減,スペクトル平滑化,およびMcAdams係数に基づく低コスト話者匿名化技術に基づくプライバシー保護機能抽出手法について検討する。
我々は、McAdams係数とスペクトル平滑化の組み合わせが、プライバシーを改善しつつ実用性を維持していることを示す。
論文 参考訳(メタデータ) (2023-06-28T10:10:57Z) - Adversarial Representation Learning for Robust Privacy Preservation in
Audio [11.409577482625053]
音響イベント検出システムは、ユーザーまたはその周辺に関する機密情報を不注意に明らかにすることができる。
本稿では,音声記録の表現を学習するための新しい逆学習法を提案する。
提案手法は,プライバシ対策を伴わないベースライン手法と,事前の逆行訓練法とを併用して評価する。
論文 参考訳(メタデータ) (2023-04-29T08:39:55Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Anonymizing Speech with Generative Adversarial Networks to Preserve
Speaker Privacy [22.84840887071428]
話者匿名化は、音声録音における音声を変化させることで話者の同一性を隠蔽することを目的としている。
これは一般的に、個人の保護とダウンストリームアプリケーションにおけるデータのユーザビリティとの間の、プライバシーとユーティリティのトレードオフが伴う。
本稿では,ワッサースタイン距離をコスト関数として生成した逆数ネットワークを用いて話者埋め込みを生成することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-10-13T13:12:42Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。