Fugu-MT 論文翻訳(概要): Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

論文の概要: Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

arxiv url: http://arxiv.org/abs/2603.05310v1
Date: Thu, 05 Mar 2026 15:51:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.307072
Title: Latent-Mark: An Audio Watermark Robust to Neural Resynthesis
Title（参考訳）: Latent-Mark: ニューラルリシンセサイザーへのロバストなオーディオ・ウォーターマーク
Authors: Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou, Yi-Cheng Lin, Bing-Yu Chen, Yun-Nung Chen, Hung-Yi Lee, Shang-Tse Chen,
Abstract要約: Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
参考スコア（独自算出の注目度）: 62.09761127079914
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While existing audio watermarking techniques have achieved strong robustness against traditional digital signal processing (DSP) attacks, they remain vulnerable to neural resynthesis. This occurs because modern neural audio codecs act as semantic filters and discard the imperceptible waveform variations used in prior watermarking methods. To address this limitation, we propose Latent-Mark, the first zero-bit audio watermarking framework designed to survive semantic compression. Our key insight is that robustness to the encode-decode process requires embedding the watermark within the codec's invariant latent space. We achieve this by optimizing the audio waveform to induce a detectable directional shift in its encoded latent representation, while constraining perturbations to align with the natural audio manifold to ensure imperceptibility. To prevent overfitting to a single codec's quantization rules, we introduce Cross-Codec Optimization, jointly optimizing the waveform across multiple surrogate codecs to target shared latent invariants. Extensive evaluations demonstrate robust zero-shot transferability to unseen neural codecs, achieving state-of-the-art resilience against traditional DSP attacks while preserving perceptual imperceptibility. Our work inspires future research into universal watermarking frameworks capable of maintaining integrity across increasingly complex and diverse generative distortions.
Abstract（参考訳）: 既存の音声透かし技術は、従来のデジタル信号処理(DSP)攻撃に対して強い堅牢性を実現しているが、神経再生には弱いままである。これは、現代のニューラルオーディオコーデックがセマンティックフィルタとして機能し、以前の透かし法で使われる知覚不能な波形のバリエーションを破棄するためである。この制限に対処するため、セマンティック圧縮に耐えるように設計された最初のゼロビットオーディオ透かしフレームワークであるLatent-Markを提案する。私たちの重要な洞察は、エンコード・デコードプロセスに対するロバスト性は、コーデックの不変潜在空間に透かしを埋め込む必要があるということです。音声波形を最適化して符号化された潜在表現の方向シフトを誘導し、摂動を制約して自然音響多様体との整合性を確保することで、これを実現する。単一コーデックの量子化規則に過度に適合しないように,複数サロゲートコーデックにまたがる波形を協調的に最適化し,共有潜在不変量をターゲットにするクロスコーデック最適化を導入する。広汎な評価は、目に見えない神経コーデックに対する堅牢なゼロショット転送可能性を示し、知覚的非受容性を保ちながら、従来のDSP攻撃に対する最先端のレジリエンスを達成する。我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。

関連論文リスト

SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models [40.540302276054376]
テキスト・ビデオ拡散モデルに適した生成型透かしフレームワークを提案する。 SKeDAは2つのコンポーネントから構成される: 1) シャッフルキーベースの分散保存サンプリング(SKe)は、透かし暗号化のために単一のベース擬似ランダムバイナリシーケンスを使用し、置換によってフレームレベルの暗号化シーケンスを導出する。大規模な実験により、SKeDAは高い映像生成品質と透かしの堅牢性を保っていることが示された。
論文参考訳（メタデータ） (2026-02-27T06:18:03Z)
VocBulwark: Towards Practical Generative Speech Watermarking via Additional-Parameter Injection [10.244226665349483]
VocBulwarkは、知覚品質を維持するために生成モデルパラメータを凍結するフレームワークである。 VocBulwarkは高容量かつ高忠実な透かしを実現し、複雑な実践シナリオに対して堅牢な防御を提供する。
論文参考訳（メタデータ） (2026-01-30T04:51:50Z)
T2SMark: Balancing Robustness and Diversity in Noise-as-Watermark for Diffusion Models [89.29541056113442]
T2SMarkはTail-Truncated Smpling(TTS)に基づく2段階の透かし方式である U-NetとDiTのバックボーンを用いた拡散モデル上でのT2SMarkの評価を行った。
論文参考訳（メタデータ） (2025-10-25T16:55:55Z)
MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文参考訳（メタデータ） (2025-10-12T09:05:28Z)
StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.05404953041403]
拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2025-09-22T16:35:19Z)
SyncGuard: Robust Audio Watermarking Capable of Countering Desynchronization Attacks [41.25345809241139]
これらの課題に対処するため,SyncGuardという学習型スキームを提案する。具体的には、任意の長さのオーディオに透かしを埋め込むためのフレームワイド放送埋め込み方式を設計する。さらに強靭性を高めるために,細かな設計による歪み層を導入する。
論文参考訳（メタデータ） (2025-08-23T19:28:04Z)
SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文参考訳（メタデータ） (2025-06-08T21:36:10Z)
Video Signature: In-generation Watermarking for Latent Video Diffusion Models [42.064769031646904]
ビデオシグナチャ (VID SIG) は、遅延ビデオ拡散モデルのための次世代透かし方式である。我々は、潜伏型デコーダを部分的に微調整し、PAS(Perturbation-Aware Suppression)が事前に識別し、知覚に敏感な層を凍結する。実験結果から, VID SIGは透かし抽出, 視覚的品質, 生成効率において, 最高の総合的な性能を発揮することがわかった。
論文参考訳（メタデータ） (2025-05-31T17:43:54Z)
Enhancing Quantum Dense Coding Robustness Using Information Entropy-Based Metrics [0.0]
Superdense Codingはセキュアな量子通信の基盤であり、単一の量子ビット内で2つの古典的ビットを符号化するために、事前共有の絡み合いを利用する。誤り訂正符号や絡み込み蒸留といった従来の手法は、一般に動的に変化する雑音条件には不十分である。この研究は、5ビット完全コードと、絡み合ったペアを破棄するのを避ける新しいグローバル適応精製とを統合する適応プロトコルを導入する。
論文参考訳（メタデータ） (2025-04-17T01:29:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。