Fugu-MT 論文翻訳(概要): Spectro-Temporal Modulation Representation Framework for Human-Imitated Speech Detection

論文の概要: Spectro-Temporal Modulation Representation Framework for Human-Imitated Speech Detection

arxiv url: http://arxiv.org/abs/2604.23241v1
Date: Sat, 25 Apr 2026 10:32:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:07.222126
Title: Spectro-Temporal Modulation Representation Framework for Human-Imitated Speech Detection
Title（参考訳）: 人為的音声検出のための分光時間変調表現フレームワーク
Authors: Khalid Zaman, Masashi Unoki,
Abstract要約: 人間模倣音声は、人間のリスナーと自動検出システムの両方にとって、AI生成音声よりも大きな課題となる。本研究では,人間の発話検出のための聴覚知覚に基づくスペクトル時間変調(STM)表現フレームワークを提案する。
参考スコア（独自算出の注目度）: 5.763598716477624
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human-imitated speech poses a greater challenge than AI-generated speech for both human listeners and automatic detection systems. Unlike AI-generated speech, which often contains artifacts, over-smoothed spectra, or robotic cues, imitated speech is produced naturally by humans, thereby preserving a higher degree of naturalness that makes imitation-based speech forgery significantly more challenging to detect using conventional acoustic or cepstral features. To overcome this challenge, this study proposes an auditory perception-based Spectro-Temporal Modulation (STM) representation framework for human-imitated speech detection. The STM representations are derived from two cochlear filterbank models: the Gammatone Filterbank (GTFB), which simulates frequency selectivity and can be regarded as a first approximation of cochlear filtering, and the Gammachirp Filterbank (GCFB), which further models both frequency selectivity and level-dependent asymmetry. These STM representations jointly capture temporal and spectral fluctuations in speech signals, corresponding to changes over time in the spectrogram and variations along the frequency axis related to human auditory perception. We also introduce a Segmental-STM representation to analyze short-term modulation patterns across overlapping time windows, enabling high-resolution modeling of temporal speech variations. Experimental results show that STM representations are effective for human-imitated speech detection, achieving accuracy levels close to those of human listeners. In addition, Segmental-STM representations are more effective, surpassing human perceptual performance. The findings demonstrate that perceptually inspired spectro-temporal modeling is promising for detecting imitation-based speech attacks and improving voice authentication robustness.
Abstract（参考訳）: 人間模倣音声は、人間のリスナーと自動検出システムの両方にとって、AI生成音声よりも大きな課題となる。人工物、過度に滑らかなスペクトル、あるいはロボットの手がかりを含むAI生成音声とは異なり、模倣された音声は人間によって自然に生成されるため、模倣に基づく音声の偽造を従来の音響的特徴やケプストラム的特徴を用いて検出することが著しく困難である。この課題を克服するために,人間の発話検出のための聴覚認識に基づくスペクトル時間変調(STM)表現フレームワークを提案する。 STM表現は、周波数選択性を模したガンマトネフィルタバンク(GTFB)と、周波数選択性とレベル依存非対称性の両方をモデル化するガンマトーンフィルタバンク(GCFB)の2つのコクラーフィルタバンクモデルから導かれる。これらのSTM表現は、スペクトルの時間的変化と人間の聴覚知覚に関連する周波数軸に沿った変動に対応して、音声信号の時間的およびスペクトル的変動を共同にキャプチャする。また、重なり合う時間ウィンドウ間の短期変調パターンを解析し、時間変動の高分解能なモデリングを可能にするセグメンダル-STM表現を導入する。実験結果から,STM表現は人間の発話検出に有効であることが示唆された。さらに、Segmental-STM表現はより効果的であり、人間の知覚性能を上回っている。この結果から,知覚にインスパイアされたスペクトル時間モデルが,模倣に基づく音声攻撃の検出と,音声認識の堅牢性向上に有効であることが示唆された。

関連論文リスト

ESTM: An Enhanced Dual-Branch Spectral-Temporal Mamba for Anomalous Sound Detection [39.234515088121086]
本稿では、時間周波数デカップリングモデルを用いたデュアルパス・マンバアーキテクチャに基づく新しいフレームワークESTMを提案する。 ESTMは、Melスペクトルと生音声特徴を融合させることにより、異なる時間セグメントと周波数帯域からリッチな特徴表現を抽出する。本実験は, ESTMがDCASE 2020 Task 2データセットの異常検出性能を向上させることを示す。
論文参考訳（メタデータ） (2025-09-02T16:23:49Z)
Revisiting Acoustic Features for Robust ASR [25.687120601256787]
生物学的聴覚知覚に触発された音響特性を発達させる先行研究のアプローチを再考する。本研究では、周波数マスキングと側方抑制の神経心理学的現象をシミュレートするために、周波数マスキング分光法(FreqMask)とガンマトン分光法(DoGSpec)の相違という2つの新しい音響特性を提案する。
論文参考訳（メタデータ） (2024-09-24T18:58:23Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Acoustic To Articulatory Speech Inversion Using Multi-Resolution Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。実験は、0.675と接地軌道変数の相関を達成した。
論文参考訳（メタデータ） (2022-03-11T07:27:42Z)
Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。 SERの主な課題の1つは、データの不足である。本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文参考訳（メタデータ） (2021-08-05T10:39:39Z)
Learning spectro-temporal representations of complex sounds with parameterized neural networks [16.270691619752288]
本稿では、Gaborカーネル(Learnable STRF)に基づく特定の分光時間変調を演算するパラメトリゼーションニューラルネットワーク層を提案する。音声活動検出,話者照合,都市音響分類,ゼブラフィンチ呼出タイプの分類において,この層の予測能力を評価した。この層は完全に解釈可能であるので、学習した分光時間変調の分布を記述するために定量的な尺度を用いた。
論文参考訳（メタデータ） (2021-03-12T07:53:47Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)
Unsupervised Cross-Domain Speech-to-Speech Conversion with Time-Frequency Consistency [14.062850439230111]
本稿では,逆行訓練におけるスペクトルの整合性を促進する条件を提案する。 Librispeech corpus を用いた実験結果から,TF の整合性で訓練したモデルにより,音声から音声への変換の精度が向上することが示唆された。
論文参考訳（メタデータ） (2020-05-15T22:27:07Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。