論文の概要: Acoustic Simulation Framework for Multi-channel Replay Speech Detection
- arxiv url: http://arxiv.org/abs/2509.14789v1
- Date: Thu, 18 Sep 2025 09:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.151343
- Title: Acoustic Simulation Framework for Multi-channel Replay Speech Detection
- Title(参考訳): マルチチャンネル再生音声検出のための音響シミュレーションフレームワーク
- Authors: Michael Neri, Tuomas Virtanen,
- Abstract要約: リプレイ音声攻撃は音声制御システムに重大な脅威をもたらす。
マルチチャンネル再生音声構成をシミュレートする音響シミュレーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.466109515054315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Replay speech attacks pose a significant threat to voice-controlled systems, especially in smart environments where voice assistants are widely deployed. While multi-channel audio offers spatial cues that can enhance replay detection robustness, existing datasets and methods predominantly rely on single-channel recordings. In this work, we introduce an acoustic simulation framework designed to simulate multi-channel replay speech configurations using publicly available resources. Our setup models both genuine and spoofed speech across varied environments, including realistic microphone and loudspeaker impulse responses, room acoustics, and noise conditions. The framework employs measured loudspeaker directionalities during the replay attack to improve the realism of the simulation. We define two spoofing settings, which simulate whether a reverberant or an anechoic speech is used in the replay scenario, and evaluate the impact of omnidirectional and diffuse noise on detection performance. Using the state-of-the-art M-ALRAD model for replay speech detection, we demonstrate that synthetic data can support the generalization capabilities of the detector across unseen enclosures.
- Abstract(参考訳): リプレイ音声攻撃は、音声アシスタントが広く展開されているスマート環境において、音声制御システムに重大な脅威をもたらす。
マルチチャネルオーディオは、リプレイ検出の堅牢性を高める空間的手がかりを提供するが、既存のデータセットとメソッドは、主にシングルチャネル記録に依存している。
本研究では,公開資源を用いたマルチチャンネル再生音声構成をシミュレートする音響シミュレーションフレームワークを提案する。
セットアップモデルでは、現実的なマイクとスピーカーのインパルス応答、室内音響、騒音条件など、様々な環境における真偽音声と偽音声の両方をモデル化する。
このフレームワークは、リプレイアタック中に測定されたスピーカの指向性を利用して、シミュレーションの現実性を改善する。
リプレイシナリオでは,残響や無響音声が使われているかをシミュレートする2つのスプーフィング設定を定義し,全方位雑音と拡散雑音が検出性能に与える影響を評価する。
音声検出に最先端のM-ALRADモデルを用いて, 合成データを用いて, 目に見えない囲いを横断する検出器の一般化機能をサポートできることを実証した。
関連論文リスト
- Mixture-of-Experts Framework for Field-of-View Enhanced Signal-Dependent Binauralization of Moving Talkers [2.614081506519191]
信号マッチングにおけるフィールド・オブ・ビュー・エンハンスメントのための新しい専門家フレームワークを提案する。
提案手法は, 連続した話者の動きに適応し, ユーザが選択した方向からの音声を強調・抑制できる動的空間音響レンダリングを実現する。
これにより、移動音源のリアルタイム追跡と強化が可能になり、音声フォーカス、ノイズ低減、拡張現実および仮想現実におけるワールドロックされたオーディオなどのアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-09-16T21:30:06Z) - V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow [57.51550409392103]
本稿では,V2SFlowについて紹介する。V2SFlowは,サイレント・トーキング・フェイス・ビデオから直接自然で分かりやすい音声を生成するために設計された,新しいビデオ音声合成(V2S)フレームワークである。
これらの課題に対処するため、音声信号を管理可能な部分空間に分解し、それぞれ異なる音声属性を表現し、視覚入力から直接予測する。
これらの予測属性からコヒーレントでリアルな音声を生成するために,Transformerアーキテクチャ上に構築された正流整合デコーダを用いる。
論文 参考訳(メタデータ) (2024-11-29T05:55:20Z) - End-to-end multi-channel speaker extraction and binaural speech synthesis [26.373624846079686]
音声明瞭度と空間的音声浸漬は,遠隔会議体験を高める上で最も重要な2つの要因である。
本稿では,マルチチャネルノイズと残響信号を直接,クリーンで空間化された音声にマッピングする能力を持つエンドツーエンドのディープラーニングフレームワークを提案する。
本研究では,空間レンダリングの精度向上を目的とした,新たな等級重み付き音間レベル差損失関数を提案する。
論文 参考訳(メタデータ) (2024-10-08T06:55:35Z) - Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture [11.063156506583562]
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。
我々は,マルチチャンネルオーディオ入力を処理するために,最先端のトランスフォーマーモデルであるHTS-ATを採用する。
我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインに比べて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T13:50:59Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Multimodal Speech Recognition with Unstructured Audio Masking [49.01826387664443]
我々はモデルトレーニング中にRandWordMaskと呼ばれるより現実的なマスキングシナリオをシミュレートする。
Flickr 8K Audio Captions Corpusで行った実験では、マルチモーダルASRが様々な種類のマスキング語を復元するために一般化できることが示されている。
分析の結果,音声信号が破損した場合に,我々のモデルが視覚信号に対応できることが判明した。
論文 参考訳(メタデータ) (2020-10-16T21:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。