Fugu-MT 論文翻訳(概要): VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription

論文の概要: VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription

arxiv url: http://arxiv.org/abs/2603.07708v1
Date: Sun, 08 Mar 2026 16:23:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:15.088077
Title: VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription
Title（参考訳）: VoiceSHIELD-Small:リアルタイム悪意音声検出と転写
Authors: Sumit Ranjan, Sugandha Sharma, Ubaid Abbas, Puneeth N Ail,
Abstract要約: 本稿では,リアルタイムに動作する軽量モデルであるVoiceSHIELD-Smallを紹介する。音声を転写し、それが安全か有害かを検出する。 OpenAIのWhisper小エンコーダ上に構築されたVoiceSHIELDには,平均プール層と単純な分類ヘッドが追加されている。
参考スコア（独自算出の注目度）: 2.0225826789157404
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Voice interfaces are quickly becoming a common way for people to interact with AI systems. This also brings new security risks, such as prompt injection, social engineering, and harmful voice commands. Traditional security methods rely on converting speech to text and then filtering that text, which introduces delays and can ignore important audio cues. This paper introduces VoiceSHIELD-Small, a lightweight model that works in real time. It can transcribe speech and detect whether it is safe or harmful, all in one step. Built on OpenAI's Whisper-small encoder, VoiceSHIELD adds a mean-pooling layer and a simple classification head. It takes just 90-120 milliseconds to classify audio on mid-tier GPUs, while transcription happens at the same time. Tested on a balanced set of 947 audio clips, the model achieved 99.16 percent accuracy and an F1 score of 0.9865. At the default setting, it missed 2.33 percent of harmful inputs. Cross-validation showed consistent performance (F1 standard deviation = 0.0026). The paper also covers the model's design, training data, performance trade-offs, and responsible use guidelines. VoiceSHIELD is released under the MIT license to encourage further research and adoption in voice AI security.
Abstract（参考訳）: 音声インターフェイスは、人々がAIシステムと対話する一般的な方法になりつつある。これはまた、即時注入、ソーシャルエンジニアリング、有害な音声コマンドなど、新たなセキュリティリスクをもたらす。従来のセキュリティメソッドは、音声をテキストに変換し、そのテキストをフィルタリングすることに依存しており、遅延が発生し、重要なオーディオキューを無視することができる。本稿では,リアルタイムに動作する軽量モデルであるVoiceSHIELD-Smallを紹介する。音声を転写し、それが安全か有害かを検出する。 OpenAIのWhisper小エンコーダ上に構築されたVoiceSHIELDには,平均プール層と単純な分類ヘッドが追加されている。中間層のGPUでオーディオを分類するのに90-120ミリ秒しかかからないが、同時に書き起こしが行われる。 947のオーディオクリップのバランスの取れたセットでテストされ、99.16パーセントの精度とF1スコアの0.9865を達成した。デフォルト設定では、有害な入力の2.33%を見逃した。クロスバリデーションは一貫した性能を示した(F1標準偏差 = 0.0026)。また、モデルの設計、トレーニングデータ、パフォーマンストレードオフ、責任ある使用ガイドラインについても取り上げている。 VoiceSHIELDは、音声AIセキュリティのさらなる研究と採用を促進するために、MITライセンス下でリリースされた。

関連論文リスト

Abjad AI at NADI 2025: CATT-Whisper: Multimodal Diacritic Restoration Using Text and Speech Representations [1.1391158217994781]
アラビア語の方言文に対する多モーダルアプローチを用いたダイアクリティカル・リカバリ(DR)課題に取り組む。本稿では,CATT という名前の事前学習モデルから抽出したエンコーダを用いて,テキストのモダリティを表すモデルを提案する。実験の結果,提案手法は, 単語誤り率0.25, 文字誤り率0.9を実現していることがわかった。
論文参考訳（メタデータ） (2025-10-28T09:58:18Z)
When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs [1.911526481015]
本稿では,WhisperInjectについて紹介する。最先端のオーディオ言語モデルを操作して有害なコンテンツを生成することができる。提案手法は,人間の聴取者に不慣れな音声入力において,知覚不能な摂動を用いる。
論文参考訳（メタデータ） (2025-08-05T12:14:01Z)
Exposing Synthetic Speech: Model Attribution and Detection of AI-generated Speech via Audio Fingerprints [11.703509488782345]
我々は、AI生成音声を検出するためのトレーニング不要で効果的なアプローチを導入する。本研究では,(1)オープンワールド環境における単一モデル帰属,(2)クローズドワールド環境における多モデル帰属,(3)合成音声と実音声の検知という3つの重要な課題に取り組む。
論文参考訳（メタデータ） (2024-11-21T10:55:49Z)
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文参考訳（メタデータ） (2024-06-12T04:09:44Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)
Self-supervised Learning with Random-projection Quantizer for Speech Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文参考訳（メタデータ） (2022-02-03T21:29:04Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-09-12T04:17:53Z)
Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文参考訳（メタデータ） (2021-05-24T04:10:47Z)
Knowledge Transfer for Efficient On-device False Trigger Mitigation [17.53768388104929]
間接的発話は「偽のトリガー」と呼ばれ、プライバシ中心のスマートアシスタントを設計するためには、偽のトリガー緩和(FTM)が不可欠である。 LSTMに基づくFTMアーキテクチャを提案する。このアーキテクチャは,ASRの書き起こしを明示的に生成することなく,音響的特徴から直接ユーザ意図を決定する。
論文参考訳（メタデータ） (2020-10-20T20:01:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。