論文の概要: Frequency Domain-Based Detection of Generated Audio
- arxiv url: http://arxiv.org/abs/2205.01806v1
- Date: Tue, 3 May 2022 22:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-05-05 14:01:52.064023
- Title: Frequency Domain-Based Detection of Generated Audio
- Title(参考訳): 周波数領域に基づく生成音声の検出
- Authors: Emily R. Bartusiak, Edward J. Delp
- Abstract要約: そこで本研究では,音声信号を解析して,実際の人間の声と偽の人間の声とを判定する手法を提案する。
提案手法は,音声信号を直接解析する代わりに,周波数,強度,時間的内容を示すスペクトログラム画像に変換する。
- 参考スコア(独自算出の注目度): 16.93803259128475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attackers may manipulate audio with the intent of presenting falsified
reports, changing an opinion of a public figure, and winning influence and
power. The prevalence of inauthentic multimedia continues to rise, so it is
imperative to develop a set of tools that determines the legitimacy of media.
We present a method that analyzes audio signals to determine whether they
contain real human voices or fake human voices (i.e., voices generated by
neural acoustic and waveform models). Instead of analyzing the audio signals
directly, the proposed approach converts the audio signals into spectrogram
images displaying frequency, intensity, and temporal content and evaluates them
with a Convolutional Neural Network (CNN). Trained on both genuine human voice
signals and synthesized voice signals, we show our approach achieves high
accuracy on this classification task.
- Abstract(参考訳): 攻撃者は、偽レポートの提示、公的な人物の意見の変更、影響力と権力の獲得を意図して音声を操作することができる。
非正統なマルチメディアが普及し続けているため、メディアの正当性を決定する一連のツールを開発することが不可欠である。
本稿では,実際の人間の声と偽の人間の声(ニューラル・アコースティック・波形モデルによる音声)を含むか否かを判断するために,音声信号を解析する手法を提案する。
提案手法は,音声信号を直接解析する代わりに,周波数,強度,時間的内容を示す分光画像に変換し,畳み込みニューラルネットワーク(CNN)を用いて評価する。
実音声信号と合成音声信号の両方を学習することにより,本分類作業において高い精度を実現することを示す。
関連論文リスト
- AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Audio-Visual Speech Enhancement with Score-Based Generative Models [22.559617939136505]
本稿では,スコアベース生成モデルを利用した音声・視覚音声強調システムを提案する。
我々は,リップリーディングを微調整した自己超視的学習モデルから得られる音声-視覚的埋め込みを利用する。
実験により,提案した音声・視覚音声強調システムにより,音声の質が向上することが確認された。
論文 参考訳(メタデータ) (2023-06-02T10:43:42Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。