論文の概要: EchoMark: Perceptual Acoustic Environment Transfer with Watermark-Embedded Room Impulse Response
- arxiv url: http://arxiv.org/abs/2511.06458v1
- Date: Sun, 09 Nov 2025 16:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.961376
- Title: EchoMark: Perceptual Acoustic Environment Transfer with Watermark-Embedded Room Impulse Response
- Title(参考訳): エコーマーク:透かしを組み込んだ室内インパルス応答による知覚音環境伝達
- Authors: Chenpei Huang, Lingfeng Yao, Kyu In Lee, Lan Emily Zhang, Xun Chen, Miao Pan,
- Abstract要約: 組込み透かしを用いた知覚的に類似したRIRを生成するフレームワークであるEchoMarkを提案する。
RIR再構成の知覚的損失と透かし検出の損失を併用してモデルを最適化することにより、EchoMarkは高品質な環境転送と信頼性のある透かし回復を両立させる。
- 参考スコア(独自算出の注目度): 16.05122023132653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic Environment Matching (AEM) is the task of transferring clean audio into a target acoustic environment, enabling engaging applications such as audio dubbing and auditory immersive virtual reality (VR). Recovering similar room impulse response (RIR) directly from reverberant speech offers more accessible and flexible AEM solution. However, this capability also introduces vulnerabilities of arbitrary ``relocation" if misused by malicious user, such as facilitating advanced voice spoofing attacks or undermining the authenticity of recorded evidence. To address this issue, we propose EchoMark, the first deep learning-based AEM framework that generates perceptually similar RIRs with embedded watermark. Our design tackle the challenges posed by variable RIR characteristics, such as different durations and energy decays, by operating in the latent domain. By jointly optimizing the model with a perceptual loss for RIR reconstruction and a loss for watermark detection, EchoMark achieves both high-quality environment transfer and reliable watermark recovery. Experiments on diverse datasets validate that EchoMark achieves room acoustic parameter matching performance comparable to FiNS, the state-of-the-art RIR estimator. Furthermore, a high Mean Opinion Score (MOS) of 4.22 out of 5, watermark detection accuracy exceeding 99\%, and bit error rates (BER) below 0.3\% collectively demonstrate the effectiveness of EchoMark in preserving perceptual quality while ensuring reliable watermark embedding.
- Abstract(参考訳): アコースティック環境マッチング(AEM)は、クリーンオーディオをターゲット音響環境に転送するタスクであり、オーディオダビングや聴覚没入型バーチャルリアリティ(VR)のような魅力的なアプリケーションを可能にする。
残響音声から直接類似した室内インパルス応答(RIR)を復元することで、よりアクセシブルで柔軟なAEMソリューションを提供する。
しかし、この能力は、高度な音声偽造攻撃の促進や、記録された証拠の真偽を損なうなど、悪意のあるユーザーによって誤用された場合、任意の「再配置」の脆弱性も引き起こす。
この問題に対処するため,我々は,組み込み透かしを用いた知覚的に類似したRIRを生成する,最初のディープラーニングベースのAEMフレームワークであるEchoMarkを提案する。
我々の設計は、潜伏領域での動作により、異なる持続時間やエネルギー減衰などのRIR特性によって引き起こされる課題に対処する。
RIR再構成の知覚的損失と透かし検出の損失を併用してモデルを最適化することにより、EchoMarkは高品質な環境転送と信頼性のある透かし回復を両立させる。
多様なデータセットの実験により、EchoMarkは最先端のRIR推定器であるFINSに匹敵する室内音響パラメータマッチング性能を達成した。
さらに,5点中4.22点の高平均オピニオンスコア(MOS)が99 %を超える透かし検出精度と0.3 %以下のビット誤り率(BER)は,信頼性の高い透かし埋め込みを確保しつつ,知覚品質の維持にEchoMarkの有効性を総合的に示す。
関連論文リスト
- PromptReverb: Multimodal Room Impulse Response Generation Through Latent Rectified Flow Matching [28.59278750632839]
室内インパルス応答(RIR)生成は、没入型仮想音響環境を作成する上で重要な課題である。
本稿では,これらの課題に対処する2段階の生成フレームワークであるPromptReverbを紹介する。
本手法は,仮想現実感,建築音響,音響制作における実用的応用を実現する。
論文 参考訳(メタデータ) (2025-10-25T21:38:07Z) - AWARE: Audio Watermarking with Adversarial Resistance to Edits [0.0]
AWARE(Audio Watermarking with Adrial Resistance to Edits)は、アタック・リバーサ・スタックや手作りの微分可能な歪みへの依存を避けるアプローチである。
埋め込みは、レベルプロポーショナル予算の下で、時間周波数領域の逆最適化によって得られる。
AWAREは、PESQ/STOI (High Audio Quality and Speech Intelligibility) と、様々なオーディオ編集においてBERを一貫して低くする。
論文 参考訳(メタデータ) (2025-10-20T13:10:52Z) - Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - Semantic Watermarking Reinvented: Enhancing Robustness and Generation Quality with Fourier Integrity [31.666430190864947]
我々はHermitian Symmetric Fourier Watermarking (SFW)と呼ばれる新しい埋め込み手法を提案する。
SFWはエルミート対称性を強制することによって周波数整合性を維持する。
我々は,収穫攻撃による意味的透かしの脆弱性を低減する中心認識型埋め込み戦略を導入する。
論文 参考訳(メタデータ) (2025-09-09T12:15:16Z) - UAV Individual Identification via Distilled RF Fingerprints-Based LLM in ISAC Networks [60.16924915676577]
無人航空機(UAV)個人識別は、低高度統合センシング通信(ISAC)ネットワークにおける重要なセキュリティ監視戦略である。
UAVID識別のための新しい動的知識蒸留(KD)対応無線周波数指紋大言語モデル(RFF-LLM)を提案する。
実験結果から,提案フレームワークは,0.15万のパラメータと2.74ミリ秒の応答時間で,98.38%のID識別精度を実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-18T03:14:44Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - Adaptive ship-radiated noise recognition with learnable fine-grained
wavelet transform [25.887932248706218]
本稿では,適応型一般化認識システム AGNet を提案する。
固定ウェーブレットパラメータをきめ細かな学習可能なパラメータに変換することにより、AGNetは異なる周波数で水中音の特性を学習する。
実験の結果、AGNetは水中音響データセットのベースライン法を全て上回っていることがわかった。
論文 参考訳(メタデータ) (2023-05-31T06:56:01Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - GraSens: A Gabor Residual Anti-aliasing Sensing Framework for Action
Recognition using WiFi [52.530330427538885]
WiFiベースのヒューマンアクション認識(HAR)は、スマートリビングやリモート監視といったアプリケーションにおいて、有望なソリューションと見なされている。
本稿では,無線機器からのWiFi信号を用いた動作を,多様なシナリオで直接認識する,エンド・ツー・エンドのGabor残差検知ネットワーク(GraSens)を提案する。
論文 参考訳(メタデータ) (2022-05-24T10:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。