論文の概要: Leveraging Audio Representations for Vibration-Based Crowd Monitoring in Stadiums
- arxiv url: http://arxiv.org/abs/2503.17646v1
- Date: Sat, 22 Mar 2025 04:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:22.302685
- Title: Leveraging Audio Representations for Vibration-Based Crowd Monitoring in Stadiums
- Title(参考訳): スタジアムにおける振動を用いた群集モニタリングのための音声表現の活用
- Authors: Yen Cheng Chang, Jesse Codling, Yiwen Dong, Jiale Zhang, Jiasi Chen, Hae Young Noh, Pei Zhang,
- Abstract要約: ラベル付きクロスモダリティデータによる事前学習によりラベル付きデータへの依存性を低減する振動に基づくViLAを提案する。
公開されているオーディオデータセットを活用することで、ViLAはオーディオから波動の振る舞いを学び、その表現を振動に適応させ、ドメイン固有の振動データへの依存を減らす。
- 参考スコア(独自算出の注目度): 11.903957796541832
- License:
- Abstract: Crowd monitoring in sports stadiums is important to enhance public safety and improve the audience experience. Existing approaches mainly rely on cameras and microphones, which can cause significant disturbances and often raise privacy concerns. In this paper, we sense floor vibration, which provides a less disruptive and more non-intrusive way of crowd sensing, to predict crowd behavior. However, since the vibration-based crowd monitoring approach is newly developed, one main challenge is the lack of training data due to sports stadiums being large public spaces with complex physical activities. In this paper, we present ViLA (Vibration Leverage Audio), a vibration-based method that reduces the dependency on labeled data by pre-training with unlabeled cross-modality data. ViLA is first pre-trained on audio data in an unsupervised manner and then fine-tuned with a minimal amount of in-domain vibration data. By leveraging publicly available audio datasets, ViLA learns the wave behaviors from audio and then adapts the representation to vibration, reducing the reliance on domain-specific vibration data. Our real-world experiments demonstrate that pre-training the vibration model using publicly available audio data (YouTube8M) achieved up to a 5.8x error reduction compared to the model without audio pre-training.
- Abstract(参考訳): スポーツスタジアムでの観客監視は、公共の安全を高め、観客体験を改善するために重要である。
既存のアプローチは主にカメラとマイクに依存しており、大きな混乱を引き起こし、しばしばプライバシー上の懸念を引き起こす可能性がある。
本稿では,群集の振舞いを予測するために,より破壊的で非破壊的な群集センシング方法を提供する床振動を検知する。
しかし, 振動を用いた群集モニタリング手法が新たに開発されたため, スポーツ競技場は複雑な身体活動を伴う大規模公共空間であるため, トレーニングデータの欠如が大きな課題となっている。
本稿では、ラベル付きクロスモーダリティデータによる事前学習によりラベル付きデータへの依存性を低減する振動に基づくViLA(Vibration Leverage Audio)を提案する。
ViLAは、教師なしの方法でオーディオデータ上で事前訓練され、その後、最小限のドメイン内振動データで微調整される。
公開されているオーディオデータセットを活用することで、ViLAはオーディオから波動の振る舞いを学び、その表現を振動に適応させ、ドメイン固有の振動データへの依存を減らす。
実世界の実験では、公開音声データ(YouTube8M)を用いた振動モデルの事前学習が、オーディオ事前学習のないモデルと比較して5.8倍の誤差低減を実現した。
関連論文リスト
- Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Amplitude-Varying Perturbation for Balancing Privacy and Utility in
Federated Learning [86.08285033925597]
本稿では,フェデレート学習のプライバシを保護するため,時変雑音振幅を持つ新しいDP摂動機構を提案する。
我々は、FLの過度な摂動ノイズによる早期収束を防止するために、シリーズのオンラインリファインメントを導出した。
新しいDP機構のプライバシ保存FLの収束と精度への寄与は、持続的な雑音振幅を持つ最先端のガウスノイズ機構と比較して相関する。
論文 参考訳(メタデータ) (2023-03-07T22:52:40Z) - That Sounds Right: Auditory Self-Supervision for Dynamic Robot
Manipulation [19.051800747558794]
本稿では、しばしば無視される情報源である音を利用する動的操作に対するデータ中心のアプローチを提案する。
まず、コモディティコンタクトマイクを用いて、5つの動的タスクにまたがる25kの相互作用音対のデータセットを収集する。
そして、自己教師付き学習を活用して、音からの行動予測を加速する。
論文 参考訳(メタデータ) (2022-10-03T17:57:09Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Privacy Concerns Regarding Occupant Tracking in Smart Buildings [2.578242050187029]
職業追跡は公共の安全、省エネルギー、マーケティングの分野で使われてきた。
被収容者を追跡する主要なシステムは、被収容者の位置に関する詳細レベルを比較して比較する。
ユーザのプライバシーを守るために振動データを変換する手法を提案し,データセット上で検証した。
論文 参考訳(メタデータ) (2020-09-30T23:33:11Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。