論文の概要: Quantum Vision Theory Applied to Audio Classification for Deepfake Speech Detection
- arxiv url: http://arxiv.org/abs/2604.08104v1
- Date: Thu, 09 Apr 2026 11:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.879883
- Title: Quantum Vision Theory Applied to Audio Classification for Deepfake Speech Detection
- Title(参考訳): ディープフェイク音声検出のための音声分類に応用した量子ビジョン理論
- Authors: Khalid Zaman, Melike Sah, Anuwat Chaiwongyenc, Cem Direkoglu,
- Abstract要約: 深層学習に基づく音声分類の新しい視点として量子ビジョン(QV)理論を提案する。
量子物理学における粒子-波の双対性から着想を得たQV理論は、データは観測可能で崩壊した形だけでなく、情報波としても表現できるという考えに基づいている。
QV理論では、入力はまずQVブロックを使用して情報波に変換され、次に分類のためのディープラーニングモデルに入力される。
- 参考スコア(独自算出の注目度): 1.8082663699456882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Quantum Vision (QV) theory as a new perspective for deep learning-based audio classification, applied to deepfake speech detection. Inspired by particle-wave duality in quantum physics, QV theory is based on the idea that data can be represented not only in its observable, collapsed form, but also as information waves. In conventional deep learning, models are trained directly on these collapsed representations, such as images. In QV theory, inputs are first transformed into information waves using a QV block, and then fed into deep learning models for classification. QV-based models improve performance in image classification compared to their non-QV counterparts. What if QV theory is applied speech spectrograms for audio classification tasks? This is the motivation and novelty of the proposed approach. In this work, Short-Time Fourier Transform (STFT), Mel-spectrograms, and Mel-Frequency Cepstral Coefficients (MFCC) of speech signals are converted into information waves using the proposed QV block and used to train QV-based Convolutional Neural Networks (QV-CNN) and QV-based Vision Transformers (QV-ViT). Extensive experiments are conducted on the ASVSpoof dataset for deepfake speech classification. The results show that QV-CNN and QV-ViT consistently outperform standard CNN and ViT models, achieving higher classification accuracy and improved robustness in distinguishing genuine and spoofed speech. Moreover, the QV-CNN model using MFCC features achieves the best overall performance on the ASVspoof dataset, with an accuracy of 94.20% and an EER of 9.04%, while the QV-CNN with Mel-spectrograms attains the highest accuracy of 94.57%. These findings demonstrate that QV theory is an effective and promising approach for audio deepfake detection and opens new directions for quantum-inspired learning in audio perception tasks.
- Abstract(参考訳): 本稿では,ディープラーニングに基づく音声分類の新しい視点として量子ビジョン(QV)理論を提案する。
量子物理学における粒子-波の双対性から着想を得たQV理論は、データは観測可能で崩壊した形だけでなく、情報波としても表現できるという考えに基づいている。
従来のディープラーニングでは、モデルは画像などのこれらの崩壊した表現に基づいて直接訓練される。
QV理論では、入力はまずQVブロックを使用して情報波に変換され、次に分類のためのディープラーニングモデルに入力される。
QVベースのモデルでは、非QVモデルに比べて画像分類のパフォーマンスが向上する。
音声分類におけるQV理論の適用について
これが提案されたアプローチのモチベーションと斬新さです。
本研究では,音声信号の短時間フーリエ変換(STFT),メルスペクトル,メル周波数ケプストラム係数(MFCC)を,提案したQVブロックを用いて情報波に変換し,QVベースの畳み込みニューラルネットワーク(QV-CNN)とQVベースの視覚変換器(QV-ViT)を訓練する。
ディープフェイク音声分類のためのASVSpoofデータセットを用いて実験を行った。
その結果,QV-CNNとQV-ViTは標準CNNとViTモデルより一貫して優れており,分類精度が向上し,真偽音声と偽音声を区別する堅牢性が向上した。
さらに、MFCC機能を使用したQV-CNNモデルは、ASVspoofデータセット上で最高の全体的なパフォーマンスを達成し、精度94.20%、EERは9.04%、Mel-spectrogramを用いたQV-CNNは94.57%である。
これらの結果から,QV理論はディープフェイク検出に有効かつ有望な手法であり,音声知覚タスクにおける量子インスピレーション学習の新たな方向を開くことが示唆された。
関連論文リスト
- QLook:Quantum-Driven Viewport Prediction for Virtual Reality [8.974334330768245]
本稿では,没入型仮想現実(VR)環境におけるビューポート予測精度を向上させるための,量子駆動型予測フレームワークQLookを提案する。
提案手法は、古典的ニューラルネットワークと変分量子回路(VQC)を拡張した量子長短期メモリ(QLSTM)ネットワークを統合する、カスケードハイブリッドアーキテクチャを特徴とする。
QLookの実証評価では、平均二乗誤差(MSE)は最先端(SoTA)と比較して37.4%減少している。
論文 参考訳(メタデータ) (2025-09-16T22:21:44Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Deepfake Audio Detection Using Spectrogram-based Feature and Ensemble of Deep Learning Models [42.39774323584976]
本稿では,ディープフェイク音声検出作業のためのディープラーニングベースシステムを提案する。
特に、ドロー入力オーディオは、まず様々なスペクトログラムに変換される。
我々は、Whisper、Seamless、Speechbrain、Pyannoteといった最先端のオーディオ事前訓練モデルを利用して、オーディオ埋め込みを抽出する。
論文 参考訳(メタデータ) (2024-07-01T20:10:43Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Investigation of Self-supervised Pre-trained Models for Classification
of Voice Quality from Speech and Neck Surface Accelerometer Signals [27.398425786898223]
本研究では,音声品質の分類における音声とNSA信号の同時記録について検討した。
事前学習モデルの有効性は,音声入力とNSA入力の両方に対して,声門音源波形と生信号波形の特徴抽出において比較される。
論文 参考訳(メタデータ) (2023-08-06T23:16:54Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Decentralizing Feature Extraction with Quantum Convolutional Neural
Network for Automatic Speech Recognition [101.69873988328808]
特徴抽出のための量子回路エンコーダからなる量子畳み込みニューラルネットワーク(QCNN)を構築した。
入力音声はまず、Mel-spectrogramを抽出するために量子コンピューティングサーバにアップストリームされる。
対応する畳み込み特徴は、ランダムパラメータを持つ量子回路アルゴリズムを用いて符号化される。
符号化された機能は、最終認識のためにローカルRNNモデルにダウンストリームされる。
論文 参考訳(メタデータ) (2020-10-26T03:36:01Z) - Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge [26.114011076658237]
音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。
第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
論文 参考訳(メタデータ) (2020-05-19T13:06:17Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。