論文の概要: A New Approach to Voice Authenticity
- arxiv url: http://arxiv.org/abs/2402.06304v1
- Date: Fri, 9 Feb 2024 10:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:16:14.564383
- Title: A New Approach to Voice Authenticity
- Title(参考訳): 音声の真正性に対する新しいアプローチ
- Authors: Nicolas M. M\"uller, Piotr Kawa, Shen Hu, Matthias Neu, Jennifer
Williams, Philip Sperl, Konstantin B\"ottinger
- Abstract要約: 現在、最も一般的な仮定は、修正されていない人間の音声は本物とみなすことができ、一方、偽の音声はTS合成に由来するというものである。
音声の2進パラダイムから「フェイク」か「リアル」という概念的なシフトを提案する。
その代わりに、フィルタやカットといった従来の変更や、TS合成やVCシステムを含む、‘ボイス編集’のピンポイントに重点を置いています。
- 参考スコア(独自算出の注目度): 4.422870070645175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice faking, driven primarily by recent advances in text-to-speech (TTS)
synthesis technology, poses significant societal challenges. Currently, the
prevailing assumption is that unaltered human speech can be considered genuine,
while fake speech comes from TTS synthesis. We argue that this binary
distinction is oversimplified. For instance, altered playback speeds can be
used for malicious purposes, like in the 'Drunken Nancy Pelosi' incident.
Similarly, editing of audio clips can be done ethically, e.g., for brevity or
summarization in news reporting or podcasts, but editing can also create
misleading narratives. In this paper, we propose a conceptual shift away from
the binary paradigm of audio being either 'fake' or 'real'. Instead, our focus
is on pinpointing 'voice edits', which encompass traditional modifications like
filters and cuts, as well as TTS synthesis and VC systems. We delineate 6
categories and curate a new challenge dataset rooted in the M-AILABS corpus,
for which we present baseline detection systems. And most importantly, we argue
that merely categorizing audio as fake or real is a dangerous
over-simplification that will fail to move the field of speech technology
forward.
- Abstract(参考訳): 音声フェーキングは主にtts(text-to-speech)合成技術の最近の進歩によって推進され、社会的な課題となっている。
現在、一般的な仮定は、改変のない人間の発話は本物と見なすことができ、一方、偽のスピーチはtts合成から生じるというものである。
この二項区別は単純化されていると論じる。
例えば、"Drunken Nancy Pelosi"インシデントのように、変更された再生速度は悪意のある目的で使用することができる。
同様に、音声クリップの編集は、例えばニュースレポートやポッドキャストの簡潔さや要約のために倫理的に行うことができるが、編集は誤解を招く物語を作ることもできる。
本稿では,「フェイク」あるいは「リアル」の2進的パラダイムから脱却する概念的シフトを提案する。
その代わりに、フィルタやカットといった従来の変更や、TS合成やVCシステムを含む、‘ボイス編集’のピンポイントに重点を置いています。
6つのカテゴリを分類し,M-AILABSコーパスに根ざした新たな課題データセットをキュレートし,ベースライン検出システムを提案する。
そして最も重要なことは、音声を偽物や本物と分類するだけでは、音声技術の分野を前進させることができない危険な単純化であると主張することだ。
関連論文リスト
- HierSpeech++: Bridging the Gap between Semantic and Acoustic
Representation of Speech by Hierarchical Variational Inference for Zero-shot
Speech Synthesis [39.892633589217326]
大規模言語モデル(LLM)に基づく音声合成は、ゼロショット音声合成において広く採用されている。
テキスト音声変換(TTS)と音声変換(VC)のための高速で強力なゼロショット音声合成器であるHierSpeech++を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:07:11Z) - Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs [1.262949092134022]
合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
論文 参考訳(メタデータ) (2023-09-15T04:26:39Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech
Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。
モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。
編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文 参考訳(メタデータ) (2022-02-21T02:05:14Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics [0.0]
本稿では,AI合成音声と人間の音声を区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
論文 参考訳(メタデータ) (2020-09-03T21:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。