論文の概要: Multilingual Source Tracing of Speech Deepfakes: A First Benchmark
- arxiv url: http://arxiv.org/abs/2508.04143v1
- Date: Wed, 06 Aug 2025 07:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.580574
- Title: Multilingual Source Tracing of Speech Deepfakes: A First Benchmark
- Title(参考訳): 音声ディープフェイクの多言語音源追跡:最初のベンチマーク
- Authors: Xi Xuan, Yang Xiao, Rohan Kumar Das, Tomi Kinnunen,
- Abstract要約: 本稿では,多言語音声のディープフェイクソーストレースのための最初のベンチマークを紹介する。
DSPおよびSSLに基づくモデリングを比較検討し、異なる言語で調整されたSSL表現が言語間一般化性能にどのように影響するかを検討する。
この結果から,学習言語と推論言語の違いによる音声生成モデル同定の課題について,総合的な知見が得られた。
- 参考スコア(独自算出の注目度): 19.578741954970738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in generative AI has made it increasingly easy to create natural-sounding deepfake speech from just a few seconds of audio. While these tools support helpful applications, they also raise serious concerns by making it possible to generate convincing fake speech in many languages. Current research has largely focused on detecting fake speech, but little attention has been given to tracing the source models used to generate it. This paper introduces the first benchmark for multilingual speech deepfake source tracing, covering both mono- and cross-lingual scenarios. We comparatively investigate DSP- and SSL-based modeling; examine how SSL representations fine-tuned on different languages impact cross-lingual generalization performance; and evaluate generalization to unseen languages and speakers. Our findings offer the first comprehensive insights into the challenges of identifying speech generation models when training and inference languages differ. The dataset, protocol and code are available at https://github.com/xuanxixi/Multilingual-Source-Tracing.
- Abstract(参考訳): 生成AIの最近の進歩により、わずか数秒のオーディオから自然に聞こえるディープフェイク音声を簡単に作成できるようになった。
これらのツールは有用なアプリケーションをサポートするが、多くの言語で偽のスピーチを偽造可能にすることで、深刻な懸念も生んでいる。
現在の研究は、主に偽の音声を検出することに焦点を当てているが、それを生成するために使用されるソースモデルを追跡することにはほとんど注意が払われていない。
本稿では,単言語とクロス言語の両方のシナリオをカバーする,多言語音声の深度ソーストレースのための最初のベンチマークを紹介する。
DSPとSSLベースのモデリングを比較検討し、異なる言語で調整されたSSL表現が言語間一般化のパフォーマンスにどのように影響するかを検証し、未知の言語や話者への一般化を評価する。
この結果から,学習言語と推論言語の違いによる音声生成モデル同定の課題について,総合的な知見が得られた。
データセット、プロトコル、コードはhttps://github.com/xuanxixi/Multilingual-Source-Tracingで入手できる。
関連論文リスト
- Tell me Habibi, is it Real or Fake? [15.344187517040508]
コードスイッチング(英語版)、特にアラビア語と英語の間では、アラブ世界では一般的であり、デジタル通信で広く使われている。
textbfArEnAVは、音声中のコードスイッチング、方言のバリエーション、モノリンガルのアラビアコンテンツを含む、アラビア語と英語の音声・視覚の大規模ディープフェイクデータセットである。
本データセットは4つのText-To-Speechモデルと2つのリップ同期モデルを統合し,多言語マルチモーダルディープフェイク検出の包括的解析を可能にする。
論文 参考訳(メタデータ) (2025-05-28T16:54:36Z) - Leveraging Unit Language Guidance to Advance Speech Modeling in Textless Speech-to-Speech Translation [48.769137497536]
本稿では,2つのモデリング課題を克服する単位言語を提案する。
単位言語はテキストのような表現形式とみなすことができる。
我々は,音声モデリングプロセスの指導に単位言語を利用するために,マルチタスク学習を実装した。
論文 参考訳(メタデータ) (2025-05-21T10:05:25Z) - A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。
我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文 参考訳(メタデータ) (2024-10-09T05:30:33Z) - Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。