Fugu-MT 論文翻訳(概要): Asymmetric Phase Coding Audio Watermarking

論文の概要: Asymmetric Phase Coding Audio Watermarking

arxiv url: http://arxiv.org/abs/2605.07241v1
Date: Fri, 08 May 2026 04:54:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.80543
Title: Asymmetric Phase Coding Audio Watermarking
Title（参考訳）: 非対称位相符号化音響透かし
Authors: Guang Yang, Amir Ghasemian, Ninareh Mehrabi, Homa Hosseinmardi,
Abstract要約: Deepfakeオーディオは音声ベースの認証システムに挑戦する。トレーニング不要なオーディオ用暗号署名層である非対称位相符号化を提案する。我々は、平均Q.02および数ミリ秒のレイテンシにおける全ての条件で、97.5%から98.3%の暗号検証率を達成する。
参考スコア（独自算出の注目度）: 7.627186551029829
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The proliferation of deepfake audio challenges voice-based authentication systems; passive forensic detectors are sensitive to evolving generative models and to real-world channel distortions. We propose Asymmetric Phase Coding (APC), a training-free cryptographic signing layer for audio, designed as a compact and auditable provenance primitive that can stand alone or be stacked with learned watermarks. APC combines Ed25519 digital signatures (EdDSA, FIPS 186-5; 64-byte signatures) with Reed-Solomon error correction, pseudo-random STFT phase-bin selection, and a redundant quantization-index-modulation (QIM) code on log-magnitude differences of adjacent bin pairs, yielding a compact, non-repudiable, blind-extractable watermark. We evaluate APC on 1,000 LibriSpeech test-clean clips (10 s each, 44.1 kHz) under eight attack configurations -- identity, 10% end-cropping, 20% end-cropping, 8 kHz low-pass, 16 kHz round-trip resampling, FLAC re-encoding, MP3 at 128 kbps, and OGG-Vorbis at 128 kbps -- and achieve cryptographic verification rates between 97.5% and 98.3% on every condition at mean PESQ=3.02 and tens-of-milliseconds CPU latency. We explicitly compare APC against recent neural baselines (AudioSeal, WavMark, SilentCipher), detail the threat model (forgery resistance vs. erasure), characterize the dataset, define all metrics, quantify an adaptive white-box erasure attack, and release code, keys, and metadata for reproducibility.
Abstract（参考訳）: ディープフェイク音声の拡散は、音声ベースの認証システムに挑戦し、受動的法医学的検知器は、進化する生成モデルや現実世界のチャネル歪みに敏感である。本稿では,APC (Asymmetric Phase Coding) を提案する。APCは,学習用透かしで単独で立脚できる,あるいは積み重ね可能な,コンパクトで監査可能なプロファイランスプリミティブとして設計された,オーディオ用トレーニングフリー暗号署名層である。 APCはEd25519デジタルシグネチャ(EdDSA, FIPS 186-5; 64バイトシグネチャ)とリード・ソロモンの誤り訂正、擬似ランダムSTFT位相-ビン選択、隣接するビン対の対数差に対する冗長量子化-インデックス-変調(QIM)符号を組み合わせ、コンパクトで再確認不可能で、盲目的に抽出可能な透かしを生成する。同一性,10%エンドカッピング,20%エンドカッピング,8kHzローパス,16kHzラウンドトリップリサンプリング,FLAC再エンコーディング,MP3 at 128kbps,OGG-Vorbis at 128kbps – という8つの攻撃構成で,1,000 LibriSpeechテストクリーンクリップ(10秒毎44.1kHz)のAPCを評価し,平均PSSQ=3.02および10ミリ秒間,各条件で97.5%から98.3%の暗号認証レートを達成した。我々は、APCと最近のニューラルネットワーク(AudioSeal、WavMark、SilentCipher)を明示的に比較し、脅威モデルの詳細、データセットの特徴付け、すべてのメトリクスの定義、適応的なホワイトボックス消去攻撃の定量化、再現性のためのコード、キー、メタデータを詳述する。

関連論文リスト

Mixed-Precision Information Bottlenecks for On-Device Trait-State Disentanglement in Bipolar Agitation Detection [3.252472808549431]
MP-IBは、臨床特性状態分離のための情報ボトルネックとして、混合精度量子化を扱う最初のフレームワークである。 Bridge2AI-Voice (N=833, 4セッション/参加者, 厳密な話者非依存CV), MPIB rho = 0.117 (95% CI: [0.089, 0.145 vs. chance], p3 vs. chance)についてエンドツーエンドのレイテンシは23.4ミリ秒で、フットプリントは617KBで、20ドル以下のデバイスでリアルタイム監視が可能である。
論文参考訳（メタデータ） (2026-05-04T18:06:17Z)
WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。 WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。 NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文参考訳（メタデータ） (2026-04-20T01:29:56Z)
Quantum Reservoir Autoencoder for Blind Decryption: Two-Phase Protocol and Noise Resilience [0.0]
リセットノイズチャンネルを用いたノイズ誘導型貯水池でQRA(Quantum Storage Autoencoder)をインスタンス化する。 10個のデータキュービットとランダムな(最適化されていない)リセット確率を持つ単一暗号文プロトコルでは、オープンシステム記憶器は10桁のショットノイズ感度を抑える。
論文参考訳（メタデータ） (2026-03-12T07:05:46Z)
Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文参考訳（メタデータ） (2026-03-05T15:51:09Z)
MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文参考訳（メタデータ） (2025-10-12T09:05:28Z)
Multi-bit Audio Watermarking [38.40457780873775]
我々は,組込み型検出器モデルを訓練することなく,最先端のロバスト性と非受容性トレードオフを実現する,ポストホック音声透かしモデルTimbruを提案する。提案手法は,知覚品質を保ちながら,最高の平均ビット誤り率を達成し,認識不能な音声透かしへの効率的なデータセットフリーパスを示す。
論文参考訳（メタデータ） (2025-10-02T12:41:01Z)
Watermarking and Anomaly Detection in Machine Learning Models for LORA RF Fingerprinting [0.0]
本稿では,疑わしい入力を見つけるために,所有権証明のための透かしと異常検出を併用したより強力なRFFIシステムを提案する。 LoRaデータセットでは、94.6%の精度、98%の透かし成功、0.94のAUROCを達成し、検証可能な改ざん防止認証を提供する。
論文参考訳（メタデータ） (2025-09-18T17:21:33Z)
Ambiguity Clustering: an accurate and efficient decoder for qLDPC codes [0.0]
本稿では,Ambiguity Clustering Decoder (AC)を導入し,測定データを独立に復号可能なクラスタに分割する。 0.3%の回路レベルの脱分極ノイズにより、ACはBP-OSDの27倍の精度で出力される。本実装では,M2 CPU上でのシンドローム抽出1ラウンドあたり135usで144キュービットのGross符号をデコードする。
論文参考訳（メタデータ） (2024-06-20T17:39:31Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。 SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文参考訳（メタデータ） (2021-07-07T15:45:42Z)
Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文参考訳（メタデータ） (2021-07-01T08:58:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。