論文の概要: WavInWav: Time-domain Speech Hiding via Invertible Neural Network
- arxiv url: http://arxiv.org/abs/2510.02915v1
- Date: Fri, 03 Oct 2025 11:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.367391
- Title: WavInWav: Time-domain Speech Hiding via Invertible Neural Network
- Title(参考訳): WavInWav: 可逆ニューラルネットワークによる時間領域音声ハイディング
- Authors: Wei Fan, Kejiang Chen, Xiangkun Wang, Weiming Zhang, Nenghai Yu,
- Abstract要約: 従来の音声隠蔽法は、秘密の音声を復元する際に不満足な品質をもたらすことが多い。
フローベースの非可逆ニューラルネットワークを使用して、ステゴオーディオ、カバーオーディオ、シークレットオーディオの直接的なリンクを確立する。
また、隠れたデータを不正アクセスから保護するための暗号化技術も追加します。
- 参考スコア(独自算出の注目度): 78.85443308774484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data hiding is essential for secure communication across digital media, and recent advances in Deep Neural Networks (DNNs) provide enhanced methods for embedding secret information effectively. However, previous audio hiding methods often result in unsatisfactory quality when recovering secret audio, due to their inherent limitations in the modeling of time-frequency relationships. In this paper, we explore these limitations and introduce a new DNN-based approach. We use a flow-based invertible neural network to establish a direct link between stego audio, cover audio, and secret audio, enhancing the reversibility of embedding and extracting messages. To address common issues from time-frequency transformations that degrade secret audio quality during recovery, we implement a time-frequency loss on the time-domain signal. This approach not only retains the benefits of time-frequency constraints but also enhances the reversibility of message recovery, which is vital for practical applications. We also add an encryption technique to protect the hidden data from unauthorized access. Experimental results on the VCTK and LibriSpeech datasets demonstrate that our method outperforms previous approaches in terms of subjective and objective metrics and exhibits robustness to various types of noise, suggesting its utility in targeted secure communication scenarios.
- Abstract(参考訳): デジタルメディア間のセキュアな通信にはデータ隠蔽が不可欠であり,近年のディープニューラルネットワーク(DNN)の進歩により,秘密情報を効果的に埋め込む方法が強化されている。
しかし、従来の音声隠蔽法は、時間周波数関係のモデル化に固有の制約があるため、秘密の音声を復元する際の不満足な品質をもたらすことが多い。
本稿では,これらの制限について考察し,新しいDNNベースのアプローチを提案する。
フローベースの可逆ニューラルネットワークを用いて、ステゴオーディオ、カバーオーディオ、シークレットオーディオの直接的なリンクを確立し、メッセージの埋め込みと抽出の可逆性を向上する。
回復中に秘密の音声品質を低下させる時間周波数変換の一般的な問題に対処するため、時間領域信号に時間周波数損失を発生させる。
このアプローチは、時間周波数制約の利点を保持するだけでなく、メッセージリカバリの可逆性を高める。
また、隠れたデータを不正アクセスから保護するための暗号化技術も追加します。
VCTK と LibriSpeech データセットによる実験結果から,本手法は主観的,客観的な指標で従来の手法よりも優れ,様々な種類のノイズに対して頑健性を示し,目的とするセキュアな通信シナリオにおけるその有用性を示している。
関連論文リスト
- Lightweight DNN for Full-Band Speech Denoising on Mobile Devices: Exploiting Long and Short Temporal Patterns [4.121578819979242]
フルバンド音声認識のための因果性,低レイテンシ,軽量ディープニューラルネットワーク(DNN)に基づく手法を提案する。
この手法は、ルックバックフレーム、畳み込みカーネルの時間的スパンニング、リカレントニューラルネットワークを用いた、修正されたUNetアーキテクチャに基づいている。
提案手法は,確立された音声認識メトリクスと公開データセットを用いて評価する。
論文 参考訳(メタデータ) (2025-09-05T13:18:25Z) - Shuffling for Semantic Secrecy [12.708217189207828]
本研究では,共有秘密鍵の役割をランダムシャッフルパターンが果たす新しいセマンティックセキュリティ通信システムを提案する。
提案するランダムシャッフル手法は,プラグインとしての既存のセマンティック・コミュニケーション・システムにおいて,その柔軟性を示す。
論文 参考訳(メタデータ) (2025-07-10T03:42:17Z) - Quantized Approximate Signal Processing (QASP): Towards Homomorphic Encryption for audio [1.3584036432145363]
ホモモルフィック暗号化(FHE)は、暗号化されたデータの計算を可能にし、ユーザのプライバシを保存することで、有望なソリューションを提供する。
ここでは、FHEと量子化されたニューラルネットワーク操作を用いて、完全にセキュアなパイプラインを計算します。
提案手法は,音声記述子と畳み込みニューラルネットワーク(CNN)分類器のプライベートな計算もサポートする。
論文 参考訳(メタデータ) (2025-05-15T17:01:52Z) - Enhancing Privacy in Semantic Communication over Wiretap Channels leveraging Differential Privacy [51.028047763426265]
セマンティック通信(SemCom)は,タスク関連情報に着目して伝送効率を向上させる。
セマンティックリッチなデータをセキュアでないチャネルで送信すると、プライバシのリスクが生じる。
本稿では,セマンティックなセマンティックな特徴を保護するために,差分プライバシー機構を統合した新しいSemComフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-23T08:42:44Z) - FlowMur: A Stealthy and Practical Audio Backdoor Attack with Limited Knowledge [13.43804949744336]
FlowMurはステルスで実用的なオーディオバックドア攻撃で、限られた知識で起動できる。
2つのデータセットで実施された実験は、FlowMurがデジタルと物理の両方で高い攻撃性能を達成することを示した。
論文 参考訳(メタデータ) (2023-12-15T10:26:18Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Noise-Response Analysis of Deep Neural Networks Quantifies Robustness
and Fingerprints Structural Malware [48.7072217216104]
ディープ・ニューラル・ネットワーク(DNN)は構造的マルウェア(すなわち、重みと活性化経路)を持つ
バックドアの検出は一般的に困難であり、既存の検出手法は計算に高価であり、膨大なリソースを必要とする(トレーニングデータへのアクセスなど)。
そこで本研究では,DNNの堅牢性,指紋の非線形性を定量化し,バックドアの検出を可能にする,高速な特徴生成手法を提案する。
実験の結果,既存の手法(秒対秒)よりも高い信頼度でバックドアを正確に検出できることが判明した。
論文 参考訳(メタデータ) (2020-07-31T23:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。