論文の概要: CallShield: Secure Caller Authentication over Real-Time Audio Channels
- arxiv url: http://arxiv.org/abs/2601.09327v1
- Date: Wed, 14 Jan 2026 10:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.354148
- Title: CallShield: Secure Caller Authentication over Real-Time Audio Channels
- Title(参考訳): CallShield: リアルタイムオーディオチャンネル上でセキュアな発信者認証
- Authors: Mouna Rabh, Yazan Boshmaf, Mashael Alsabah, Shammur Chowdhury, Mohamed Hefeeda, Issa Khalil,
- Abstract要約: CallShieldは音声の書き起こし、インターネット接続、信頼されたインフラに頼ることなく、音声層で完全に動作する。
我々は,ライブ8kHz音声の40ミリ秒フレーム内に,ビットごとの埋め込みと回復を可能にするリアルタイムなニューラル透かし技術を導入する。
CallShieldは、発信者認証のためにセキュアで軽量な対称キープロトコルを採用しており、信頼された連絡先間でペアで共有される秘密に依存している。
- 参考スコア(独自算出の注目度): 6.640053218303204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CallShield, the first caller identity authentication system that operates entirely at the audio layer, without relying on speech transcription, internet connectivity, or trusted infrastructure. CallShield introduces a real-time neural watermarking technique that enables per-bit embedding and recovery within 40-millisecond frames of live 8 kHz speech. This capability allows CallShield to transform the real-time audio channel into a noisy serial communication medium. To ensure reliable data transmission, CallShield implements a low-bitrate data link protocol that provides basic frame synchronization along with error detection, correction, and recovery. For caller authentication, CallShield adopts a secure and lightweight symmetric-key protocol that relies on pairwise shared secrets among trusted contacts. The system completes the full authentication process in an average of 63 seconds, including up to three retransmission attempts, making it suitable for real-time deployment. Extensive experiments under realistic telephony conditions demonstrate that CallShield achieves an overall authentication success rates exceeding 99.2% on clean audio and over 95% under common distortions, aided by selective retransmission of failed messages. Additionally, CallShield maintains high audio quality, achieving PESQ scores above 4.2 and STOI scores above 0.94 on clean speech, and exhibits robustness across a wide range of channel distortions, validating its practical viability for secure, real-time caller authentication.
- Abstract(参考訳): 音声の書き起こし、インターネット接続、信頼されたインフラに頼ることなく、音声層で完全に動作する最初の発信者識別認証システムであるCallShieldを提示する。
CallShieldは,ライブ8kHz音声の40ミリ秒フレーム内で,ビット単位の埋め込みとリカバリを可能にする,リアルタイムなニューラルな透かし技術を導入している。
この能力により、CallShieldはリアルタイムオーディオチャンネルをノイズの多いシリアル通信媒体に変換することができる。
信頼性の高いデータ伝送を保証するために、CallShieldは、基本的なフレーム同期とエラー検出、修正、リカバリを提供する低ビットデータリンクプロトコルを実装している。
CallShieldは、発信者認証のためにセキュアで軽量な対称キープロトコルを採用しており、信頼された連絡先間でペアで共有される秘密に依存している。
このシステムは、最大3回の再送試行を含む、63秒で完全な認証処理を完了し、リアルタイムデプロイメントに適している。
リアルな電話条件下での大規模な実験により、CallShieldは、クリーンオーディオで99.2%以上の認証成功率、一般的な歪み下で95%以上の認証成功率を達成した。
さらに、CallShieldは高い音質を維持し、4.2以上のPSSQスコアと、クリーン音声におけるSTOIスコアを0.94以上達成し、幅広いチャネル歪みに対して堅牢性を示し、安全でリアルタイムな発信者認証の実現可能性を検証する。
関連論文リスト
- Defense Against Synthetic Speech: Real-Time Detection of RVC Voice Conversion Attacks [0.0]
生成オーディオ技術は、高度にリアルな音声クローニングとリアルタイム音声変換を可能にする。
本研究では,検索音声変換を用いたAI生成音声のリアルタイム検出について検討する。
論文 参考訳(メタデータ) (2025-12-31T02:06:42Z) - Privacy-Preserving Semantic Communications via Multi-Task Learning and Adversarial Perturbations [49.494000480610225]
本稿では,ディープラーニングに基づくセマンティックコミュニケーションフレームワークを提案する。
シーケンシャルなリークをeavesdropperに明示的に制限しながら、複数の受信タスクをサポートする。
摂動層は、正当なリンクが自身のタスクのためにのみ訓練された場合でも、セマンティックリークを低減することに成功している。
論文 参考訳(メタデータ) (2025-12-30T20:19:49Z) - WavInWav: Time-domain Speech Hiding via Invertible Neural Network [78.85443308774484]
従来の音声隠蔽法は、秘密の音声を復元する際に不満足な品質をもたらすことが多い。
フローベースの非可逆ニューラルネットワークを使用して、ステゴオーディオ、カバーオーディオ、シークレットオーディオの直接的なリンクを確立する。
また、隠れたデータを不正アクセスから保護するための暗号化技術も追加します。
論文 参考訳(メタデータ) (2025-10-03T11:36:16Z) - Secure and Efficient Out-of-band Call Metadata Transmission [7.351131814642663]
Sidecarは、チューニング可能な分散化を備えた分散プライバシ保護システムである。
現在のソリューションと比較して、Sidecar 1)は、加入者IDとプロバイダの取引秘密の機密性を保護する。
Sidecarは任意のコールメタデータに対して,同じセキュリティ保証を提供するように拡張することができる。
論文 参考訳(メタデータ) (2025-09-16T02:20:26Z) - AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models [125.44235244336623]
オーディオ大言語モデル(ALLMs)は広く採用されているが、信頼性は未定である。
音色,アクセント,背景雑音などの非意味的音響的手がかりから生じるALMの有意な信頼性リスクを同定した。
本稿では,AudioTrustを提案する。
論文 参考訳(メタデータ) (2025-05-22T04:27:46Z) - Whispering Under the Eaves: Protecting User Privacy Against Commercial and LLM-powered Automatic Speech Recognition Systems [20.45938874279563]
本稿では,音声認識システムに対して音声認識を保護するための新しいフレームワークであるAudioShieldを提案する。
摂動を潜伏空間に転送することにより、音質は広範囲に保存される。
AudioShieldは、リアルタイムのエンドツーエンドシナリオにおいて高い効果を示し、適応的な対策に対して強力なレジリエンスを示す。
論文 参考訳(メタデータ) (2025-04-01T14:49:39Z) - Advanced Real-Time Fraud Detection Using RAG-Based LLMs [0.990597034655156]
本稿では,Retrieval Augmented Generation技術を用いた新しいリアルタイム不正検出機構を提案する。
私たちのシステムの重要なイノベーションは、モデル全体をトレーニングすることなく、ポリシーを更新できることです。
この堅牢で柔軟な不正検出システムは、現実世界の展開に適している。
論文 参考訳(メタデータ) (2025-01-25T17:58:05Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - Practical quantum secure direct communication with squeezed states [37.69303106863453]
CV-QSDCシステムの最初の実験実験を行い,その安全性について報告する。
この実現は、将来的な脅威のない量子大都市圏ネットワークへの道を歩み、既存の高度な波長分割多重化(WDM)システムと互換性がある。
論文 参考訳(メタデータ) (2023-06-25T19:23:42Z) - Active Voice Authentication [16.300144775820243]
本稿では,従来の短い音声検査信号を用いて,信頼性の高い話者検証を可能にする手法について述べる。
このシステムを開発するために25人の話者のデータベースが記録されている。
リアルタイムのデモシステムはMicrosoft Surface Proで実装されている。
論文 参考訳(メタデータ) (2020-04-25T07:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。