Fugu-MT 論文翻訳(概要): WavMark: Watermarking for Audio Generation

論文の概要: WavMark: Watermarking for Audio Generation

arxiv url: http://arxiv.org/abs/2308.12770v3
Date: Sun, 7 Jan 2024 07:05:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 23:12:03.310852
Title: WavMark: Watermarking for Audio Generation
Title（参考訳）: WavMark: オーディオ生成のための透かし
Authors: Guangyu Chen, Yu Wu, Shujie Liu, Tao Liu, Xiaoyong Du, Furu Wei
Abstract要約: 本稿では,わずか1秒の音声スニペット内に最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。透かしは人間の感覚に影響されず、様々な攻撃に対して強い弾力性を示す。合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。
参考スコア（独自算出の注目度）: 70.65175179548208
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent breakthroughs in zero-shot voice synthesis have enabled imitating a speaker's voice using just a few seconds of recording while maintaining a high level of realism. Alongside its potential benefits, this powerful technology introduces notable risks, including voice fraud and speaker impersonation. Unlike the conventional approach of solely relying on passive methods for detecting synthetic data, watermarking presents a proactive and robust defence mechanism against these looming risks. This paper introduces an innovative audio watermarking framework that encodes up to 32 bits of watermark within a mere 1-second audio snippet. The watermark is imperceptible to human senses and exhibits strong resilience against various attacks. It can serve as an effective identifier for synthesized voices and holds potential for broader applications in audio copyright protection. Moreover, this framework boasts high flexibility, allowing for the combination of multiple watermark segments to achieve heightened robustness and expanded capacity. Utilizing 10 to 20-second audio as the host, our approach demonstrates an average Bit Error Rate (BER) of 0.48\% across ten common attacks, a remarkable reduction of over 2800\% in BER compared to the state-of-the-art watermarking tool. See https://aka.ms/wavmark for demos of our work.
Abstract（参考訳）: ゼロショット音声合成の最近の進歩は、高レベルのリアリズムを維持しながら、わずか数秒の録音で話者の声を模倣することを可能にする。その潜在的なメリットに加えて、この強力な技術は、音声詐欺やスピーカーの偽造など、大きなリスクをもたらす。従来の合成データ検出の受動的手法にのみ依存するアプローチとは異なり、ウォーターマーキングはこれらの略奪的リスクに対して積極的に堅牢な防御機構を示す。本稿では,1秒間の音声スニペット内で最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。透かしは人間の感覚に影響されず、様々な攻撃に対して強い抵抗力を示す。合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。さらに、このフレームワークは柔軟性が高く、複数のウォーターマークセグメントを組み合わせることで、堅牢性と拡張容量を実現することができる。 10秒から20秒の音声をホストとして使用することで、平均ビットエラーレート(ber)が10回の一般的な攻撃で0.48\%となり、最先端のウォーターマーキングツールと比較して2800\%以上のberが著しく削減されることを示した。私たちの作品のデモはhttps://aka.ms/wavmarkを参照。

関連論文リスト

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文参考訳（メタデータ） (2026-03-05T15:51:09Z)
Multi-bit Audio Watermarking [38.40457780873775]
我々は,組込み型検出器モデルを訓練することなく,最先端のロバスト性と非受容性トレードオフを実現する,ポストホック音声透かしモデルTimbruを提案する。提案手法は,知覚品質を保ちながら,最高の平均ビット誤り率を達成し,認識不能な音声透かしへの効率的なデータセットフリーパスを示す。
論文参考訳（メタデータ） (2025-10-02T12:41:01Z)
Yours or Mine? Overwriting Attacks against Neural Audio Watermarking [21.297468818273064]
我々は、正規の音声透かしを偽造で上書きする、シンプルだが強力な攻撃を開発する。対戦相手が持つ音声透かし情報に基づいて,オーバライト攻撃の3つのカテゴリを提案する。実験により,提案したオーバーライト攻撃が既存の透かし方式を効果的に損なうことを示した。
論文参考訳（メタデータ） (2025-09-06T21:23:44Z)
IConMark: Robust Interpretable Concept-Based Watermark For AI Images [50.045011844765185]
我々は,新しい世代のロバストなセマンティックな透かし法であるIConMarkを提案する。 IConMarkは、解釈可能な概念をAI生成イメージに組み込み、敵の操作に耐性を持たせる。我々は、検出精度と画質の維持の観点から、その優位性を実証する。
論文参考訳（メタデータ） (2025-07-17T05:38:30Z)
VoiceMark: Zero-Shot Voice Cloning-Resistant Watermarking Approach Leveraging Speaker-Specific Latents [11.902170180363473]
ボイスクローニング(VC)耐性透かしは、不正なクローニングを追跡・防止するための新しい技術である。既存の方法は、ウォーターマークされたオーディオでトレーニングすることで、従来のVCモデルを効果的にトレースするが、ゼロショットVCシナリオでは失敗する。我々は、話者固有の潜水剤を透かしキャリアとして活用する、最初のゼロショットVC耐性透かし法であるVoiceMarkを提案する。
論文参考訳（メタデータ） (2025-05-27T05:59:34Z)
Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking [53.434260110195446]
Safe-Soraは、ビデオ生成プロセスに直接グラフィカルな透かしを直接埋め込む最初のフレームワークである。適応型局所時間走査戦略を用いた3次元ウェーブレット変換拡張型Mambaアーキテクチャを開発した。ビデオの品質、透かしの忠実さ、堅牢性の観点から、Safe-Soraは最先端のパフォーマンスを実証した。
論文参考訳（メタデータ） (2025-05-19T03:31:31Z)
SoK: How Robust is Audio Watermarking in Generative AI models? [6.241477455995664]
有効にするためには、音声透かしは検出を回避するために信号を歪ませる除去攻撃に抵抗しなければならない。強靭性を主張する最近の透かし方式が広範囲の除去攻撃に耐えられるか検討する。我々は、オープンソースコードを使用して9つの透かしスキームを再現し、新しい8つの非常に効果的な攻撃を特定し、11つの重要な発見をハイライトする。
論文参考訳（メタデータ） (2025-03-24T21:57:59Z)
XAttnMark: Learning Robust Audio Watermarking with Cross-Attention [15.216472445154064]
クロスアテンションロバスト音響透かし(XAttnMark) 本稿では,ジェネレータと検出器間の部分パラメータ共有を利用してギャップを埋めるクロスアテンションロバスト音響透かし(XAttnMark)を提案する。本研究では, 聴覚マスキング効果の微粒化を捉え, 透かしの受容性を向上する心理音響整列型時間周波数マスキング障害を提案する。
論文参考訳（メタデータ） (2025-02-06T17:15:08Z)
Speech Watermarking with Discrete Intermediate Representations [45.892635912641836]
本稿では,音声の中間表現に透かしを注入する新しい音声透かしフレームワークを提案する。 DiscreteWMは、堅牢性と非受容性を同時に実現します。我々のフレキシブルなフレームワイドアプローチは、音声のクローン検出と情報隠蔽の両面において効率的な解決策となる。
論文参考訳（メタデータ） (2024-12-18T14:57:06Z)
IDEAW: Robust Neural Audio Watermarking with Invertible Dual-Embedding [29.89341878606415]
本稿では,効率的な位置決めのための二重埋め込み型透かしモデルの設計を行う。実験により、提案モデルであるIDEAWは、既存の手法と比較して、高いキャパシティとより効率的な位置決め能力を持つ様々な攻撃に耐えられることが示された。
論文参考訳（メタデータ） (2024-09-29T09:32:54Z)
Audio Codec Augmentation for Robust Collaborative Watermarking of Speech Synthesis [9.48476556434306]
本稿では,従来の音声コーデックとニューラルオーディオコーデックを併用するために,チャネル拡張を拡張した。リスニングテストでは、8kbpsの高コーデックやDACで、協調的な透かしが知覚上の劣化を無視できることを示した。
論文参考訳（メタデータ） (2024-09-20T10:33:17Z)
AudioMarkBench: Benchmarking Robustness of Audio Watermarking [38.25450275151647]
本稿では,透かし除去と透かし偽造に対する音響透かしの堅牢性を評価するための最初の体系的ベンチマークであるAudioMarkBenchを紹介する。以上の結果から,従来の透かし手法の脆弱性を強調し,より堅牢で公正な透かしソリューションの必要性を強調した。
論文参考訳（メタデータ） (2024-06-11T06:18:29Z)
SilentCipher: Deep Audio Watermarking [26.559909295466586]
音声透かしにおける3つの重要な革新を紹介する。まず、心理音響モデルに基づくしきい値を統合して、知覚不能な透かしを実現する。次に,psuedo-differentiable compression layerを導入し,透かしアルゴリズムの堅牢性を向上させる。第三に、知覚的損失を排除し、堅牢性および知覚不能な透かしの両方でSOTAを実現する方法を提案する。
論文参考訳（メタデータ） (2024-06-06T07:58:31Z)
Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。 Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文参考訳（メタデータ） (2024-03-12T16:25:38Z)
Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。 AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。 AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-30T18:56:22Z)
Invisible Image Watermarks Are Provably Removable Using Generative AI [47.25747266531665]
Invisibleの透かしは、所有者によってのみ検出可能な隠されたメッセージを埋め込むことで、画像の著作権を保護する。我々は、これらの見えない透かしを取り除くために、再生攻撃のファミリーを提案する。提案手法は,まず画像にランダムノイズを加えて透かしを破壊し,画像を再構成する。
論文参考訳（メタデータ） (2023-06-02T23:29:28Z)
Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文参考訳（メタデータ） (2022-07-16T16:06:59Z)
Partially Fake Audio Detection by Self-attention-based Fake Span Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。 ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文参考訳（メタデータ） (2022-02-14T13:20:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。