論文の概要: AWARE: Audio Watermarking with Adversarial Resistance to Edits
- arxiv url: http://arxiv.org/abs/2510.17512v1
- Date: Mon, 20 Oct 2025 13:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.457349
- Title: AWARE: Audio Watermarking with Adversarial Resistance to Edits
- Title(参考訳): AWARE:編集に抵抗のあるオーディオ透かし
- Authors: Kosta Pavlović, Lazar Stanarević, Petar Nedić, Slavko Kovačević, Igor Djurović,
- Abstract要約: AWARE(Audio Watermarking with Adrial Resistance to Edits)は、アタック・リバーサ・スタックや手作りの微分可能な歪みへの依存を避けるアプローチである。
埋め込みは、レベルプロポーショナル予算の下で、時間周波数領域の逆最適化によって得られる。
AWAREは、PESQ/STOI (High Audio Quality and Speech Intelligibility) と、様々なオーディオ編集においてBERを一貫して低くする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prevailing practice in learning-based audio watermarking is to pursue robustness by expanding the set of simulated distortions during training. However, such surrogates are narrow and prone to overfitting. This paper presents AWARE (Audio Watermarking with Adversarial Resistance to Edits), an alternative approach that avoids reliance on attack-simulation stacks and handcrafted differentiable distortions. Embedding is obtained via adversarial optimization in the time-frequency domain under a level-proportional perceptual budget. Detection employs a time-order-agnostic detector with a Bitwise Readout Head (BRH) that aggregates temporal evidence into one score per watermark bit, enabling reliable watermark decoding even under desynchronization and temporal cuts. Empirically, AWARE attains high audio quality and speech intelligibility (PESQ/STOI) and consistently low BER across various audio edits, often surpassing representative state-of-the-art learning-based audio watermarking systems.
- Abstract(参考訳): 学習に基づく音声透かしにおける一般的な実践は、トレーニング中に模擬歪みのセットを拡張することで頑健さを追求することである。
しかし、このようなサロゲートは狭く、過度に適合する傾向がある。
本稿では,AWARE(Audio Watermarking with Adversarial resistance to Edits)を提案する。
埋め込みは、時間周波数領域における対向最適化によって、レベル比の知覚予算の下で得られる。
検出にはビットワイズ・リードアウトヘッド(BRH)を備えた時間順序非依存検出器を使用し、時間的証拠を透かしビット当たりのスコアに集約し、非同期や時間的カットの下でも信頼できる透かし復号を可能にする。
経験的に、AWAREは様々なオーディオ編集において高い音質と音声のインテリジェンス(PESQ/STOI)と一貫して低いBERを実現し、しばしば最先端の学習ベースのオーディオ透かしシステムを上回る。
関連論文リスト
- Multi-bit Audio Watermarking [38.40457780873775]
我々は,組込み型検出器モデルを訓練することなく,最先端のロバスト性と非受容性トレードオフを実現する,ポストホック音声透かしモデルTimbruを提案する。
提案手法は,知覚品質を保ちながら,最高の平均ビット誤り率を達成し,認識不能な音声透かしへの効率的なデータセットフリーパスを示す。
論文 参考訳(メタデータ) (2025-10-02T12:41:01Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.05404953041403]
拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。
画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T16:35:19Z) - XAttnMark: Learning Robust Audio Watermarking with Cross-Attention [15.216472445154064]
クロスアテンションロバスト音響透かし(XAttnMark)
本稿では,ジェネレータと検出器間の部分パラメータ共有を利用してギャップを埋めるクロスアテンションロバスト音響透かし(XAttnMark)を提案する。
本研究では, 聴覚マスキング効果の微粒化を捉え, 透かしの受容性を向上する心理音響整列型時間周波数マスキング障害を提案する。
論文 参考訳(メタデータ) (2025-02-06T17:15:08Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。