論文の概要: SpeechVerifier: Robust Acoustic Fingerprint against Tampering Attacks via Watermarking
- arxiv url: http://arxiv.org/abs/2505.23821v2
- Date: Mon, 02 Jun 2025 03:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.078338
- Title: SpeechVerifier: Robust Acoustic Fingerprint against Tampering Attacks via Watermarking
- Title(参考訳): Speech Verifier: ウォーターマーキングによる触覚攻撃に対するロバストな音響指紋
- Authors: Lingfeng Yao, Chenpei Huang, Shengyao Wang, Junpei Xue, Hanqing Guo, Jiang Liu, Xun Chen, Miao Pan,
- Abstract要約: 本稿では,公開音声のみを用いて,音声の整合性を積極的に検証するSpeechVerifierを提案する。
音声フィンガープリントと透かしにインスパイアされたSpeechVerifierは、(i)効果的に改ざん攻撃を検知し、(ii)良性操作に頑健であり、(iii)公開音声のみに基づいて整合性を検証する。
- 参考スコア(独自算出の注目度): 15.273097277151768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the surge of social media, maliciously tampered public speeches, especially those from influential figures, have seriously affected social stability and public trust. Existing speech tampering detection methods remain insufficient: they either rely on external reference data or fail to be both sensitive to attacks and robust to benign operations, such as compression and resampling. To tackle these challenges, we introduce SpeechVerifer to proactively verify speech integrity using only the published speech itself, i.e., without requiring any external references. Inspired by audio fingerprinting and watermarking, SpeechVerifier can (i) effectively detect tampering attacks, (ii) be robust to benign operations and (iii) verify the integrity only based on published speeches. Briefly, SpeechVerifier utilizes multiscale feature extraction to capture speech features across different temporal resolutions. Then, it employs contrastive learning to generate fingerprints that can detect modifications at varying granularities. These fingerprints are designed to be robust to benign operations, but exhibit significant changes when malicious tampering occurs. To enable speech verification in a self-contained manner, the generated fingerprints are then embedded into the speech signal by segment-wise watermarking. Without external references, SpeechVerifier can retrieve the fingerprint from the published audio and check it with the embedded watermark to verify the integrity of the speech. Extensive experimental results demonstrate that the proposed SpeechVerifier is effective in detecting tampering attacks and robust to benign operations.
- Abstract(参考訳): ソーシャルメディアの急増に伴い、悪質な公言、特に影響力のある人物の発言は、社会的安定と公的な信頼に深刻な影響を与えている。
既存の音声改ざん検出手法は依然として不十分であり、外部参照データに依存するか、攻撃に敏感で、圧縮や再サンプリングのような良質な操作に頑健でないかのいずれかである。
これらの課題に対処するために、SpeechVeriferを導入し、外部参照を必要とせず、公開した音声のみを用いて音声の整合性を積極的に検証する。
音声フィンガープリントと透かしにインスパイアされたSpeechVerifier
(i) 改ざん攻撃を効果的に検出する。
(二)良心的操作に頑丈であること、
三 公表された言論のみに基づいて、完全性を検証すること。
簡単に言うと、SpeechVerifierはマルチスケールの特徴抽出を利用して、異なる時間分解能にわたる音声特徴をキャプチャする。
そして、異なる粒度で修正を検出する指紋を生成するために、対照的な学習を利用する。
これらの指紋は、良識のある操作に対して堅牢に設計されているが、悪意のある改ざんが起こると大きな変化が現れる。
自己完結型の音声検証を可能にするため、セグメントワイド透かしにより生成された指紋を音声信号に埋め込む。
外部参照がなければ、SpeechVerifierは公開オーディオから指紋を検索し、埋め込みの透かしで確認し、音声の完全性を検証することができる。
広汎な実験結果から,提案したSpeechVerifierは触覚攻撃の検出や良性操作の堅牢化に有効であることが示された。
関連論文リスト
- What You Read Isn't What You Hear: Linguistic Sensitivity in Deepfake Speech Detection [7.555970188701627]
我々は,オープンソースおよび商用のアンチスプーフィング検出器に対する転写レベルの逆攻撃を導入する。
攻撃の成功率は、オープンソースのディテクターとボイスで60%を超え、1つの商業的検出精度は、合成オーディオで100%からわずか32%に低下する。
その結果、純粋な音響防御を超えて、頑丈な防汚システムの設計における言語的変化を考慮する必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-23T06:06:37Z) - Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。
本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。
人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-01-07T14:17:47Z) - On the Generation and Removal of Speaker Adversarial Perturbation for Voice-Privacy Protection [45.49915832081347]
近年の音声プライバシ保護の進歩は,話者の音声属性を隠蔽する同じ手法の肯定的な使用例を示している。
本稿では,逆方向の摂動を発生させるエンティティを除去し,元の音声を復元する可逆性について検討する。
同様の手法は、捜査員が音声保護されたスピーチを匿名化し、犯罪者の身元をセキュリティと法医学的分析で復元するためにも用いられる。
論文 参考訳(メタデータ) (2024-12-12T11:46:07Z) - Can DeepFake Speech be Reliably Detected? [17.10792531439146]
この研究は、最先端のオープンソース音声検出装置に対する能動的悪意のある攻撃に関する最初の体系的研究である。
その結果、敵の脅威が進行する中で、より堅牢な検出方法が緊急に必要であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-09T06:13:48Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Adversarial Privacy Protection on Speech Enhancement [2.1700203922407493]
音声は、異なる状況で携帯電話によって記録されるなど、容易に漏れやすい。
ディープニューラルネットワーク(DNN)と共に音声強調技術が急速に発達した
そこで本研究では,音声強調システムにおける逆解析手法を提案する。
論文 参考訳(メタデータ) (2022-06-16T13:38:59Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Attack on practical speaker verification system using universal
adversarial perturbations [20.38185341318529]
本研究は,提案する対人摂動を,相手が話しているときに別個の音源として演奏することにより,現実的な話者検証システムにより,相手を対象話者と誤認することを示す。
2段階のアルゴリズムが提案され、テキストに依存しない普遍的対向摂動を最適化し、認証テキスト認識にはほとんど影響を与えない。
論文 参考訳(メタデータ) (2021-05-19T09:43:34Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。