Fugu-MT 論文翻訳(概要): Audio Codec Augmentation for Robust Collaborative Watermarking of Speech Synthesis

論文の概要: Audio Codec Augmentation for Robust Collaborative Watermarking of Speech Synthesis

arxiv url: http://arxiv.org/abs/2409.13382v1
Date: Fri, 20 Sep 2024 10:33:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 07:28:56.409434
Title: Audio Codec Augmentation for Robust Collaborative Watermarking of Speech Synthesis
Title（参考訳）: 音声合成におけるロバスト協調透かしのための音声コーデック強化
Authors: Lauri Juvela, Xin Wang,
Abstract要約: 本稿では,従来の音声コーデックとニューラルオーディオコーデックを併用するために,チャネル拡張を拡張した。リスニングテストでは、8kbpsの高コーデックやDACで、協調的な透かしが知覚上の劣化を無視できることを示した。
参考スコア（独自算出の注目度）: 9.48476556434306
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic detection of synthetic speech is becoming increasingly important as current synthesis methods are both near indistinguishable from human speech and widely accessible to the public. Audio watermarking and other active disclosure methods of are attracting research activity, as they can complement traditional deepfake defenses based on passive detection. In both active and passive detection, robustness is of major interest. Traditional audio watermarks are particularly susceptible to removal attacks by audio codec application. Most generated speech and audio content released into the wild passes through an audio codec purely as a distribution method. We recently proposed collaborative watermarking as method for making generated speech more easily detectable over a noisy but differentiable transmission channel. This paper extends the channel augmentation to work with non-differentiable traditional audio codecs and neural audio codecs and evaluates transferability and effect of codec bitrate over various configurations. The results show that collaborative watermarking can be reliably augmented by black-box audio codecs using a waveform-domain straight-through-estimator for gradient approximation. Furthermore, that results show that channel augmentation with a neural audio codec transfers well to traditional codecs. Listening tests demonstrate collaborative watermarking incurs negligible perceptual degradation with high bitrate codecs or DAC at 8kbps.
Abstract（参考訳）: 合成音声の自動検出がますます重要になっているのは、現在の合成法がヒトの音声とほぼ区別がつかず、一般に広くアクセス可能であるためである。音声透かしやその他のアクティブな開示手法は、受動的検出に基づいて従来のディープフェイク防御を補完できるため、研究活動を惹きつけている。アクティブな検出と受動的検出の両方において、堅牢性は大きな関心事である。従来のオーディオ透かしは、特にオーディオコーデックアプリケーションによる攻撃を受けやすい。野生に放出されるほとんどの音声および音声コンテンツは、純粋に分配方法としてオーディオコーデックを通り抜ける。我々は最近,雑音に富むが識別可能な伝送路上で生成した音声をより容易に検出する手法として,協調的な透かしを提案する。本稿では,従来の音声コーデックやニューラルオーディオコーデックと併用するためにチャネル拡張を拡張し,様々な構成に対するコーデックビットレートの転送性および効果を評価する。その結果、勾配近似のための波形領域ストレートスルー推定器を用いて、ブラックボックスオーディオコーデックによって協調的な透かしを確実に拡張できることが示唆された。さらに,この結果から,ニューラルオーディオコーデックによるチャネル拡張は従来のコーデックによく寄与することが示された。リスニングテストでは、8kbpsの高ビットレートコーデックやDACで、協調的な透かしは知覚上の劣化を無視できることを示した。

関連論文リスト

SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
Latent Granular Resynthesis using Neural Audio Codecs [0.0]
本稿では,潜在ベクトルレベルでの粒状合成の概念を再構築することで,創造的な音声再生を実現する新しい手法を提案する。提案手法は,ソース音声コーパスを潜在ベクトルセグメントに符号化し,ターゲット音声信号の各潜在粒度をコードブックに最も近いものとマッチングすることにより,"粒状コードブック"を作成する。得られたハイブリッドシーケンスをデコードして、ソースの音節特性を採用しながら、ターゲットの時間構造を保存するオーディオを生成する。
論文参考訳（メタデータ） (2025-07-25T12:14:12Z)
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文参考訳（メタデータ） (2025-02-06T19:24:50Z)
XAttnMark: Learning Robust Audio Watermarking with Cross-Attention [15.216472445154064]
クロスアテンションロバスト音響透かし(XAttnMark) 本稿では,ジェネレータと検出器間の部分パラメータ共有を利用してギャップを埋めるクロスアテンションロバスト音響透かし(XAttnMark)を提案する。本研究では, 聴覚マスキング効果の微粒化を捉え, 透かしの受容性を向上する心理音響整列型時間周波数マスキング障害を提案する。
論文参考訳（メタデータ） (2025-02-06T17:15:08Z)
A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation [65.05719674893999]
トークン予測と回帰に基づく2つの戦略について検討し,Schr"odinger Bridgeに基づく新しい手法を提案する。異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
論文参考訳（メタデータ） (2024-10-29T18:29:39Z)
SNAC: Multi-Scale Neural Audio Codec [1.0753191494611891]
マルチスケールニューラルオーディオコーデックはRVQの単純な拡張であり、量子化器は異なる時間分解能で動作することができる。本稿では,様々な時間分解能で量子化器を動作させることができるRVQの簡易拡張であるマルチスケールニューラルオーディオコーデックを提案する。
論文参考訳（メタデータ） (2024-10-18T12:24:05Z)
Learning Source Disentanglement in Neural Audio Codec [20.335701584949526]
我々は、音源符号化と音源分離を組み合わせた新しいアプローチである、ソース分散ニューラルオーディオコーデック(SD-Codec)を紹介する。 SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。実験結果から,SD-Codecは競合的再合成品質を維持するだけでなく,分離結果に支えられ,潜伏空間における異なるソースの絡み合いが成功したことが示唆された。
論文参考訳（メタデータ） (2024-09-17T14:21:02Z)
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。 X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-08-30T10:24:07Z)
SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound [40.810505707522324]
SemantiCodecは、様々なオーディオタイプで毎秒100トークン未満にオーディオを圧縮するように設計されている。本稿では,セマンティコーデックが再現性に関する最先端の記述を著しく上回っていることを示す。また,SemantiCodecはすべての評価音声コーデックよりもはるかにリッチな意味情報を含んでいることも示唆した。
論文参考訳（メタデータ） (2024-04-30T22:51:36Z)
WavMark: Watermarking for Audio Generation [70.65175179548208]
本稿では,わずか1秒の音声スニペット内に最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。透かしは人間の感覚に影響されず、様々な攻撃に対して強い弾力性を示す。合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。
論文参考訳（メタデータ） (2023-08-24T13:17:35Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)
Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文参考訳（メタデータ） (2022-07-20T15:41:47Z)
SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。 SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文参考訳（メタデータ） (2021-07-07T15:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。