論文の概要: Multi-Channel Replay Speech Detection using Acoustic Maps
- arxiv url: http://arxiv.org/abs/2602.16399v1
- Date: Wed, 18 Feb 2026 12:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.589551
- Title: Multi-Channel Replay Speech Detection using Acoustic Maps
- Title(参考訳): 音響マップを用いたマルチチャンネル再生音声検出
- Authors: Michael Neri, Tuomas Virtanen,
- Abstract要約: マルチチャンネル記録からの音声検出のための空間特徴表現として音響マップを提案する。
軽量な畳み込みニューラルネットワークは、ReMASCデータセット上での競合的なパフォーマンスを達成するために、この表現を操作するように設計されている。
- 参考スコア(独自算出の注目度): 8.466109515054315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Replay attacks remain a critical vulnerability for automatic speaker verification systems, particularly in real-time voice assistant applications. In this work, we propose acoustic maps as a novel spatial feature representation for replay speech detection from multi-channel recordings. Derived from classical beamforming over discrete azimuth and elevation grids, acoustic maps encode directional energy distributions that reflect physical differences between human speech radiation and loudspeaker-based replay. A lightweight convolutional neural network is designed to operate on this representation, achieving competitive performance on the ReMASC dataset with approximately 6k trainable parameters. Experimental results show that acoustic maps provide a compact and physically interpretable feature space for replay attack detection across different devices and acoustic environments.
- Abstract(参考訳): リプレイ攻撃は、特にリアルタイム音声アシスタントアプリケーションにおいて、自動話者検証システムにとって重要な脆弱性である。
本研究では,マルチチャンネル記録からの音声検出のための空間特徴表現として音響マップを提案する。
従来のビームフォーミングから導かれた音響地図は、人間の音声放射とスピーカーによるリプレイの物理的差異を反映した方向エネルギー分布をエンコードする。
軽量畳み込みニューラルネットワークは、約6kのトレーニング可能なパラメータでReMASCデータセット上での競合性能を達成するために、この表現を操作するように設計されている。
実験結果から,音響地図は様々なデバイスと音響環境をまたいだ攻撃検出を行うためのコンパクトで物理的に解釈可能な特徴空間を提供することがわかった。
関連論文リスト
- Acoustic Simulation Framework for Multi-channel Replay Speech Detection [8.466109515054315]
リプレイ音声攻撃は音声制御システムに重大な脅威をもたらす。
マルチチャンネル再生音声構成をシミュレートする音響シミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T09:38:58Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Acoustic To Articulatory Speech Inversion Using Multi-Resolution
Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。
実験は、0.675と接地軌道変数の相関を達成した。
論文 参考訳(メタデータ) (2022-03-11T07:27:42Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。