論文の概要: Deepfake Word Detection by Next-token Prediction using Fine-tuned Whisper
- arxiv url: http://arxiv.org/abs/2602.22658v1
- Date: Thu, 26 Feb 2026 06:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.553642
- Title: Deepfake Word Detection by Next-token Prediction using Fine-tuned Whisper
- Title(参考訳): 微調整ウィスパーを用いた次点予測によるディープフェイク単語の検出
- Authors: Hoan My Tran, Xin Wang, Wanying Ge, Xuechen Liu, Junichi Yamagishi,
- Abstract要約: ボナファイド発話において1つ以上の単語を意味的に異なる単語に置き換えることで、ディープフェイク発話を偽造することができる。
本稿では,事前学習したWhisperモデルを微調整し,入力音声の書き起こし中に合成語を検出するための費用対効果について検討する。
- 参考スコア(独自算出の注目度): 33.50962290311746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfake speech utterances can be forged by replacing one or more words in a bona fide utterance with semantically different words synthesized by speech generative models. While a dedicated synthetic word detector could be developed, we investigate a cost-effective method that fine-tunes a pre-trained Whisper model to detect synthetic words while transcribing the input utterance via next-token prediction. We further investigate using partially vocoded utterances as the fine-tuning data, thereby reducing the cost of data collection. Our experiments demonstrate that, on in-domain test data, the fine-tuned Whisper yields low synthetic-word detection error rates and transcription error rates. On out-of-domain test data with synthetic words produced by unseen speech generative models, the fine-tuned Whisper remains on par with a dedicated ResNet-based detection model; however, the overall performance degradation calls for strategies to improve its generalization capability.
- Abstract(参考訳): 音声生成モデルにより合成された意味的に異なる単語にボナファイド発話中の1つ以上の単語を置き換えることで、ディープフェイク発話を偽造することができる。
専用の合成単語検出装置を開発できる一方で,学習前のWhisperモデルを微調整し,入力発話を次々に予測することで,合成単語を検出できるコスト効率のよい手法を検討した。
さらに、一部の音声を微調整データとして使用することにより、データ収集のコストを低減できる。
実験により、ドメイン内テストデータを用いて、微調整したWhisperは、低合成単語検出誤差率と転写誤り率が得られることを示した。
未知の音声生成モデルによって生成された合成語を用いたドメイン外テストデータでは、微調整されたWhisperは専用のResNetベースの検出モデルと同等であるが、全体的な性能劣化は一般化能力を改善するための戦略を要求する。
関連論文リスト
- Improving Synthetic Data Training for Contextual Biasing Models with a Keyword-Aware Cost Function [39.43946600820569]
そこで本研究では,モジュールの学習において,偏りのある単語に着目したキーワード認識損失関数を提案する。
合成データ10時間にWhisperを適用することにより, NSC Part 2テストの単語誤り率を29.71%から11.81%に削減した。
論文 参考訳(メタデータ) (2025-09-11T07:12:17Z) - Zero-shot Context Biasing with Trie-based Decoding using Synthetic Multi-Pronunciation [38.053484403802834]
合成駆動型多発音文脈バイアス法を提案する。
本手法は,非バイアスワード誤り率(B-WER)をテストクリーンで43%,他で44%削減し,非バイアスワードエラー率(U-WER)は基本的に変化しない。
論文 参考訳(メタデータ) (2025-08-25T08:41:52Z) - Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。
本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。
人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-01-07T14:17:47Z) - Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition [18.924716098922683]
合成データによる機械学習は、合成データと実際のデータ分布のギャップのため、簡単ではない。
本稿では,分散ギャップに起因する問題を緩和するために,トレーニング中の2つの新しい手法を提案する。
これらの手法は,合成データを用いた音声認識モデルの訓練を著しく改善することを示す。
論文 参考訳(メタデータ) (2021-10-21T21:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。