論文の概要: Synthesized Speech Detection Using Convolutional Transformer-Based
Spectrogram Analysis
- arxiv url: http://arxiv.org/abs/2205.01800v1
- Date: Tue, 3 May 2022 22:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:02:23.885067
- Title: Synthesized Speech Detection Using Convolutional Transformer-Based
Spectrogram Analysis
- Title(参考訳): 畳み込み変換を用いた分光分析による合成音声検出
- Authors: Emily R. Bartusiak, Edward J. Delp
- Abstract要約: 合成音声は、報告された音声信号を作成し、その信号の内容を話さない人に帰属するなど、悪質な目的に使用できる。
本稿では,合成音声検出のためのコンパクト畳み込み変換器を用いて,スペクトル形音声信号の解析を行う。
- 参考スコア(独自算出の注目度): 16.93803259128475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesized speech is common today due to the prevalence of virtual
assistants, easy-to-use tools for generating and modifying speech signals, and
remote work practices. Synthesized speech can also be used for nefarious
purposes, including creating a purported speech signal and attributing it to
someone who did not speak the content of the signal. We need methods to detect
if a speech signal is synthesized. In this paper, we analyze speech signals in
the form of spectrograms with a Compact Convolutional Transformer (CCT) for
synthesized speech detection. A CCT utilizes a convolutional layer that
introduces inductive biases and shared weights into a network, allowing a
transformer architecture to perform well with fewer data samples used for
training. The CCT uses an attention mechanism to incorporate information from
all parts of a signal under analysis. Trained on both genuine human voice
signals and synthesized human voice signals, we demonstrate that our CCT
approach successfully differentiates between genuine and synthesized speech
signals.
- Abstract(参考訳): 合成音声は、バーチャルアシスタントの普及、音声信号の生成と修正のための使いやすいツール、リモートワークプラクティスなどにより、今日では一般的である。
合成音声は、報告された音声信号を作成し、その信号の内容を話さない人に帰属するなど、悪質な目的にも使用することができる。
音声信号が合成されるかどうかを検出する方法が必要である。
本稿では,合成音声検出のためのコンパクト畳み込み変換器(CCT)を用いて,スペクトル形音声信号の解析を行う。
CCTは、帰納バイアスと共有重み付けをネットワークに導入する畳み込み層を使用し、トランスフォーマーアーキテクチャはトレーニングに使用するデータサンプルが少なくてうまく機能する。
CCTはアテンションメカニズムを使用して、分析対象の信号のすべての部分からの情報を取り込む。
実音声信号と合成音声信号の両方に基づいて学習し, 実音声信号と合成音声信号の区別に成功していることを示す。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - DSVAE: Interpretable Disentangled Representation for Synthetic Speech
Detection [25.451749986565375]
合成音声を検出するための音声信号の解釈可能な表現を生成するために,Dis Spectrogram Variational Autoentangle (DSVAE)を提案する。
実験の結果, 未知音声合成者11名中6名中10名中98%が, 高い精度 (>98%) を示した。
論文 参考訳(メタデータ) (2023-04-06T18:37:26Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker
Embedding and Vision Transformers [0.0]
本稿では,音声認識のための新しい学習方法を提案する。
これは、CCT(Compact Convolutional Transformers)とスピーカー埋め込みの組み合わせに基づいている。
クロスコーパス設定でいくつかのベンチマークで実験が行われた。
論文 参考訳(メタデータ) (2022-11-04T10:49:44Z) - Transformer-Based Speech Synthesizer Attribution in an Open Set Scenario [16.93803259128475]
音声合成法は、詐欺、偽造、誤情報キャンペーンに使用できる現実的な音声を生成することができる。
法医学的帰属法は、音声信号を生成するために使用される特定の音声合成法を特定する。
学習中に見えない新しい合成器に一般化する音声帰属法を提案する。
論文 参考訳(メタデータ) (2022-10-14T05:55:21Z) - Inner speech recognition through electroencephalographic signals [2.578242050187029]
本研究は、脳波信号から始まる内的音声認識に焦点を当てる。
脳波のテキストへの復号は、限られた数の単語(コマンド)の分類として理解されるべきである。
音声関連BCIは、脳信号からの音声コマンドを通してデバイスを制御する効果的な音声通信戦略を提供する。
論文 参考訳(メタデータ) (2022-10-11T08:29:12Z) - Acoustic To Articulatory Speech Inversion Using Multi-Resolution
Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。
実験は、0.675と接地軌道変数の相関を達成した。
論文 参考訳(メタデータ) (2022-03-11T07:27:42Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。