論文の概要: Protecting Your Voice: Temporal-aware Robust Watermarking
- arxiv url: http://arxiv.org/abs/2504.14832v1
- Date: Mon, 21 Apr 2025 03:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:48:21.152645
- Title: Protecting Your Voice: Temporal-aware Robust Watermarking
- Title(参考訳): 音声の保護:一時的に認識されるロバストな透かし
- Authors: Yue Li, Weizhi Liu, Dongdong Lin,
- Abstract要約: 音声や歌声の保護を行うために,textbfunderline-aware textbfunderlinerobtextbfunderlineust wattextbfunderlineermarking (emphTrue) 法を提案する。
- 参考スコア(独自算出の注目度): 3.1682080884953736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of generative models has led to the synthesis of real-fake ambiguous voices. To erase the ambiguity, embedding watermarks into the frequency-domain features of synthesized voices has become a common routine. However, the robustness achieved by choosing the frequency domain often comes at the expense of fine-grained voice features, leading to a loss of fidelity. Maximizing the comprehensive learning of time-domain features to enhance fidelity while maintaining robustness, we pioneer a \textbf{\underline{t}}emporal-aware \textbf{\underline{r}}ob\textbf{\underline{u}}st wat\textbf{\underline{e}}rmarking (\emph{True}) method for protecting the speech and singing voice.
- Abstract(参考訳): 生成モデルの急速な進歩は、実際のフェイクあいまいな声の合成に繋がった。
あいまいさをなくすために、合成音声の周波数領域特徴に透かしを埋め込むことが一般的となっている。
しかし、周波数領域を選択することで得られる頑健さは、しばしばきめ細かい声の特徴を犠牲にし、忠実さを損なう。
強靭性を維持しながら忠実性を高めるために時間領域の特徴の包括的学習を最大化するため、音声と歌声を保護するための方法として、 \textbf{\underline{t}}emporal-aware \textbf{\underline{r}}ob\textbf{\underline{u}}st wat\textbf{\underline{e}}rmarking (\emph{True}) を考案した。
関連論文リスト
- Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [66.97034863216892]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Video Signature: In-generation Watermarking for Latent Video Diffusion Models [19.648332041264474]
ビデオシグナチャ (VID SIG) は、遅延ビデオ拡散モデルのための次世代透かし方式である。
視覚的品質を維持するために、パータベーション・アウェア・抑制(PAS)が知覚に敏感な層を事前に識別し凍結する潜時デコーダを部分的に微調整することでこれを実現できる。
実験結果から, VID SIGは透かし抽出, 視覚的品質, 生成効率において, 最高の総合的な性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-05-31T17:43:54Z) - TriniMark: A Robust Generative Speech Watermarking Method for Trinity-Level Attribution [3.1682080884953736]
本稿では,生成したコンテンツを認証するための生成的textbfspeech wattextbfermarking法(TriniMark)を提案する。
まず、音声の時間領域特徴に透かしを埋め込む構造軽量透かしエンコーダを設計する。
ビットワイドウォーターマーク回復のためのウォーターマーク復号器において、時間対応ゲート畳み込みネットワークを巧みに設計する。
論文 参考訳(メタデータ) (2025-04-29T08:23:28Z) - SafeSpeech: Robust and Universal Voice Protection Against Malicious Speech Synthesis [8.590034271906289]
音声合成技術は非常に便利であり、現実的なディープフェイク音声の利用が危険を招いている。
悪意のある敵は、被害者のスピーチを不正に収集し、違法な搾取のために同様の声をクローンすることができる。
提案するフレームワークであるtextittextbfSafeSpeechは,本来の音声に知覚不能な摂動を埋め込むことで,アップロード前のユーザの音声を保護する。
論文 参考訳(メタデータ) (2025-04-14T03:21:23Z) - XAttnMark: Learning Robust Audio Watermarking with Cross-Attention [15.216472445154064]
クロスアテンションロバスト音響透かし(XAttnMark)
本稿では,ジェネレータと検出器間の部分パラメータ共有を利用してギャップを埋めるクロスアテンションロバスト音響透かし(XAttnMark)を提案する。
本研究では, 聴覚マスキング効果の微粒化を捉え, 透かしの受容性を向上する心理音響整列型時間周波数マスキング障害を提案する。
論文 参考訳(メタデータ) (2025-02-06T17:15:08Z) - CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions [0.5120567378386615]
より冗長な音声の書き起こしを生成するために、モデルを微調整する。
複数の話者に対する頑健さと背景雑音を高めるために,我々はいくつかの手法を採用している。
論文 参考訳(メタデータ) (2024-08-29T14:52:42Z) - GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio Synthesis [37.065509936285466]
本稿では,Groot を用いたロバストな音声透かし手法を提案する。
このパラダイムでは、透かし生成と音声合成のプロセスが同時に行われる。
Grootは複合攻撃に直面した場合、異常な堅牢性を示し、平均的な透かし抽出精度は約95%を維持している。
論文 参考訳(メタデータ) (2024-07-15T06:57:19Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - WavMark: Watermarking for Audio Generation [70.65175179548208]
本稿では,わずか1秒の音声スニペット内に最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。
透かしは人間の感覚に影響されず、様々な攻撃に対して強い弾力性を示す。
合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-24T13:17:35Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Prosodic Clustering for Phoneme-level Prosody Control in End-to-End
Speech Synthesis [49.6007376399981]
本稿では,自己回帰的注意に基づく音声合成システムにおいて,音素レベルでの韻律制御手法を提案する。
提案手法は、F0と持続時間の音素レベル制御を可能とし、生成した音声の品質を維持する。
F0クラスタのセントロイドを音符に置き換えることで、モデルはスピーカーの範囲内で音符とオクターブを制御できる。
論文 参考訳(メタデータ) (2021-11-19T12:10:16Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - FastPitch: Parallel Text-to-speech with Pitch Prediction [9.213700601337388]
我々はFastSpeechに基づく完全並列テキスト音声合成モデルであるFastPitchを提案する。
モデルは推論中のピッチの輪郭を予測し、これらの予測を変更することにより、生成された音声をより表現的にすることができる。
論文 参考訳(メタデータ) (2020-06-11T23:23:58Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。