論文の概要: Using Deepfake Technologies for Word Emphasis Detection
- arxiv url: http://arxiv.org/abs/2305.07791v1
- Date: Fri, 12 May 2023 22:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 19:49:50.753590
- Title: Using Deepfake Technologies for Word Emphasis Detection
- Title(参考訳): 単語強調検出におけるdeepfake技術の利用
- Authors: Eran Kaufman, Lee-Ad Gottlieb
- Abstract要約: 音声言語の自動強調検出の課題について考察する。
この問題は、被験者の発言の特異性に影響されるという点で困難である。
本稿では, ディープフェイク技術を用いて, この話者に強調されたデポイド音声を生成することを提案する。
- 参考スコア(独自算出の注目度): 5.279475826661642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we consider the task of automated emphasis detection for spoken
language. This problem is challenging in that emphasis is affected by the
particularities of speech of the subject, for example the subject accent,
dialect or voice. To address this task, we propose to utilize deep fake
technology to produce an emphasis devoid speech for this speaker. This requires
extracting the text of the spoken voice, and then using a voice sample from the
same speaker to produce emphasis devoid speech for this task. By comparing the
generated speech with the spoken voice, we are able to isolate patterns of
emphasis which are relatively easy to detect.
- Abstract(参考訳): 本研究では,音声言語の自動強調検出の課題について考察する。
この問題は、主題のアクセント、方言、音声など、対象者の発話の特異性に影響されるという点で困難である。
この課題に対処するために,我々はディープフェイク技術を用いて,この話者に強調しない音声を生成することを提案する。
これにより、発声音声のテキストを抽出し、同じ話者から音声サンプルを使用して、このタスクに重点的な無声音声を生成する。
生成した音声を音声と比較することにより、比較的検出が容易な強調パターンを分離することができる。
関連論文リスト
- AttentionStitch: How Attention Solves the Speech Editing Problem [8.901406369717114]
我々は、FastSpeech 2のような事前訓練されたテキスト音声合成(TTS)モデルを活用することによって、音声編集に新しいアプローチを提案する。
我々はこのモデルをAttentionStitchと呼び、オーディオサンプルの縫合に注意を払っている。
15名の被験者を対象とし,主観的評価試験と主観的評価試験により,その優れた性能を実証した。
論文 参考訳(メタデータ) (2024-03-05T22:09:58Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Speaker Extraction with Co-Speech Gestures Cue [79.91394239104908]
話者抽出のための話者キューとして,手動や体の動きなど,共同音声ジェスチャシーケンスの活用について検討する。
目標話者に対する注意深い聴取を行うために,共音声ジェスチャキューを用いて2つのネットワークを提案する。
実験結果から, 対象話者の関連付けにおいて, 共音声のジェスチャーキューが有意であり, 抽出した音声の品質は未処理の混合音声よりも有意に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-31T06:48:52Z) - Speaker Generation [16.035697779803627]
本研究は,非存在感音声における音声合成の課題について考察する。
本稿では,この課題に対して競争力のあるシステムであるTacoSpawnを紹介する。
論文 参考訳(メタデータ) (2021-11-07T22:31:41Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。