論文の概要: EvMic: Event-based Non-contact sound recovery from effective spatial-temporal modeling
- arxiv url: http://arxiv.org/abs/2504.02402v1
- Date: Thu, 03 Apr 2025 08:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:53:28.313130
- Title: EvMic: Event-based Non-contact sound recovery from effective spatial-temporal modeling
- Title(参考訳): EvMic:効果的な時空間モデリングによるイベントベース非接触音の回復
- Authors: Hao Yin, Shi Guo, Xu Jia, Xudong XU, Lu Zhang, Si Liu, Dong Wang, Huchuan Lu, Tianfan Xue,
- Abstract要約: 音波が物体にぶつかると、高周波で微妙な視覚変化をもたらす振動を誘発する。
イベントカメラハードウェアの最近の進歩は、その視覚的聴覚回復への応用に有益であることを示している。
イベントストリームからの時空間情報を完全に活用した,非接触音の回復のための新しいパイプラインを提案する。
- 参考スコア(独自算出の注目度): 69.96729022219117
- License:
- Abstract: When sound waves hit an object, they induce vibrations that produce high-frequency and subtle visual changes, which can be used for recovering the sound. Early studies always encounter trade-offs related to sampling rate, bandwidth, field of view, and the simplicity of the optical path. Recent advances in event camera hardware show good potential for its application in visual sound recovery, because of its superior ability in capturing high-frequency signals. However, existing event-based vibration recovery methods are still sub-optimal for sound recovery. In this work, we propose a novel pipeline for non-contact sound recovery, fully utilizing spatial-temporal information from the event stream. We first generate a large training set using a novel simulation pipeline. Then we designed a network that leverages the sparsity of events to capture spatial information and uses Mamba to model long-term temporal information. Lastly, we train a spatial aggregation block to aggregate information from different locations to further improve signal quality. To capture event signals caused by sound waves, we also designed an imaging system using a laser matrix to enhance the gradient and collected multiple data sequences for testing. Experimental results on synthetic and real-world data demonstrate the effectiveness of our method.
- Abstract(参考訳): 音波が物体にぶつかると、高周波で微妙な視覚変化をもたらす振動を誘発し、音を回復させる。
初期の研究は常にサンプリングレート、帯域幅、視野、光路の単純さに関連するトレードオフに直面している。
近年のイベントカメラハードウェアの進歩は、高周波信号を捕捉する能力に優れており、視覚音の回復に有効であることを示す。
しかし、既存の事象に基づく振動回復法は、まだ音の回復に準最適である。
本研究では,イベントストリームからの時空間情報を完全に活用した,非接触音の回復のための新しいパイプラインを提案する。
まず、新しいシミュレーションパイプラインを用いて大規模なトレーニングセットを生成する。
そして,空間情報の取得にイベントの空間性を活用するネットワークを設計し,マンバを用いて長期時間情報をモデル化した。
最後に,信号品質を向上させるために,異なる場所からの情報を集約する空間集約ブロックを訓練する。
音波による事象信号を捉えるため,レーザマトリクスを用いて勾配を拡大し,複数のデータシーケンスを収集する撮像システムを設計した。
合成および実世界のデータに対する実験結果から,本手法の有効性が示された。
関連論文リスト
- UltraRay: Full-Path Ray Tracing for Enhancing Realism in Ultrasound Simulation [43.433512581459176]
レイトレーシングアルゴリズムを用いてエコーデータを生成する新しい超音波シミュレーションパイプラインを提案する。
先進的な超音波イメージングを再現するため,平面波イメージングに最適化されたレイエミッション方式を導入し,遅延とステアリング機能を取り入れた。
提案手法であるUltraRayは,視覚的品質の向上だけでなく,シミュレーション画像のリアリズムの向上にも寄与する。
論文 参考訳(メタデータ) (2025-01-10T10:07:41Z) - Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction [51.71299452862839]
本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。
次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。
最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。
論文 参考訳(メタデータ) (2024-05-05T06:01:31Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Spatial Scaper: A Library to Simulate and Augment Soundscapes for Sound
Event Localization and Detection in Realistic Rooms [4.266697413924045]
音事象の局所化と検出(SELD)は、機械聴取において重要な課題である。
本研究では,SELDデータシミュレーションと拡張のためのライブラリであるSpatialScaperを紹介する。
論文 参考訳(メタデータ) (2024-01-19T19:01:13Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Deep learning-based deconvolution for interferometric radio transient
reconstruction [0.39259415717754914]
LOFAR、MeerKAT/SKA、ASKAP/SKA、そして将来のSKA-LOWのような電波天文学施設は、時間と周波数に大きな感度をもたらす。
これらの施設は、自然によって揮発し、データに検出または見逃される無線過渡現象の高度な研究を可能にする。
これらのトランジェントは、電子の高エネルギー加速のマーカーであり、幅広い時間スケールで表される。
論文 参考訳(メタデータ) (2023-06-24T08:58:52Z) - Structural Vibration Signal Denoising Using Stacking Ensemble of Hybrid
CNN-RNN [0.0]
近年,生物工学の分野では振動信号の利用が増加している。
足音による振動は、人体や動物などの生体系の運動を分析するのに有用である。
本稿では,複数信号のアンサンブルと,再帰的および畳み込み型ニューラルネットワーク予測の両方を活用する新しいアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T00:49:45Z) - Deep Impulse Responses: Estimating and Parameterizing Filters with Deep
Networks [76.830358429947]
高雑音および地中設定におけるインパルス応答推定は難しい問題である。
本稿では,ニューラル表現学習の最近の進歩に基づいて,インパルス応答のパラメータ化と推定を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T18:57:23Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。