Fugu-MT 論文翻訳(概要): SLIM: Style-Linguistics Mismatch Model for Generalized Audio Deepfake Detection

論文の概要: SLIM: Style-Linguistics Mismatch Model for Generalized Audio Deepfake Detection

arxiv url: http://arxiv.org/abs/2407.18517v1
Date: Fri, 26 Jul 2024 05:23:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 14:20:08.083064
Title: SLIM: Style-Linguistics Mismatch Model for Generalized Audio Deepfake Detection
Title（参考訳）: SLIM:汎用オーディオディープフェイク検出のためのスタイル言語ミストマッチモデル
Authors: Yi Zhu, Surya Koppisetti, Trang Tran, Gaurav Bharaj,
Abstract要約: 既存のADDモデルは一般化の問題に悩まされている。既存のモデルのブラックボックスの性質は、現実世界のシナリオでの使用を制限する。そこで本研究では,疑似音声においてStyleLInguistics Mismatch (SLIM) を明示的に用いた新たなADDモデルを提案する。
参考スコア（独自算出の注目度）: 13.811326866261888
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio deepfake detection (ADD) is crucial to combat the misuse of speech synthesized from generative AI models. Existing ADD models suffer from generalization issues, with a large performance discrepancy between in-domain and out-of-domain data. Moreover, the black-box nature of existing models limits their use in real-world scenarios, where explanations are required for model decisions. To alleviate these issues, we introduce a new ADD model that explicitly uses the StyleLInguistics Mismatch (SLIM) in fake speech to separate them from real speech. SLIM first employs self-supervised pretraining on only real samples to learn the style-linguistics dependency in the real class. The learned features are then used in complement with standard pretrained acoustic features (e.g., Wav2vec) to learn a classifier on the real and fake classes. When the feature encoders are frozen, SLIM outperforms benchmark methods on out-of-domain datasets while achieving competitive results on in-domain data. The features learned by SLIM allow us to quantify the (mis)match between style and linguistic content in a sample, hence facilitating an explanation of the model decision.
Abstract（参考訳）: 音声ディープフェイク検出(ADD)は、生成AIモデルから合成された音声の誤用に対処するために重要である。既存のADDモデルは、ドメイン内データとドメイン外データの間に大きなパフォーマンス差があるため、一般化の問題に悩まされている。さらに、既存のモデルのブラックボックスの性質は、モデル決定に説明が必要な実世界のシナリオでの使用を制限する。これらの問題を緩和するために、偽音声においてStyleLInguistics Mismatch (SLIM) を明示的に使用し、実際の音声と区別する新しいADDモデルを導入する。 SLIMは、まず、実際のクラスにおけるスタイル言語依存を学ぶために、実際のサンプルのみに自己教師付き事前訓練を採用する。学習した機能は、標準的な事前訓練された音響特徴(例えば、Wav2vec)を補完して、実と偽のクラスで分類器を学ぶために使用される。機能エンコーダが凍結されると、SLIMはドメイン外のデータセットのベンチマークメソッドより優れ、ドメイン内のデータに対する競合的な結果が得られる。 SLIMが学習した特徴は、サンプル中のスタイルと言語コンテンツ間の(ミス)マッチを定量化し、モデル決定の説明を容易にする。

関連論文リスト

Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T16:35:45Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。 ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。 4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文参考訳（メタデータ） (2024-05-23T23:10:23Z)
LLMs can learn self-restraint through iterative self-reflection [57.26854891567574]
大規模言語モデル(LLM)は、特定のトピックに関連する知識と不確実性に基づいて、その振る舞いを動的に適応できなければならない。この適応的行動は、私たちが自己規制と呼ぶもので、教えるのは簡単ではない。モデルが信頼している場合にのみ応答を生成できるようにするユーティリティ関数を考案する。
論文参考訳（メタデータ） (2024-05-15T13:35:43Z)
Combating Label Noise With A General Surrogate Model For Sample Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文参考訳（メタデータ） (2023-10-16T14:43:27Z)
CLIMAX: An exploration of Classifier-Based Contrastive Explanations [5.381004207943597]
我々は,ブラックボックスの分類を正当化する対照的な説明を提供する,ポストホックモデルXAI手法を提案する。 CLIMAXと呼ばれる手法は,局所的な分類法に基づく。 LIME, BayLIME, SLIMEなどのベースラインと比較して, 一貫性が向上することを示す。
論文参考訳（メタデータ） (2023-07-02T22:52:58Z)
Pushing the Limits of Unsupervised Unit Discovery for SSL Speech Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。 SSLターゲットを改善するための教師なし手法を提案する。 MonoBERTとPolyBERTの2つのモデルが提案されている。
論文参考訳（メタデータ） (2023-06-15T07:45:12Z)
Label-Retrieval-Augmented Diffusion Models for Learning from Noisy Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。本稿では,生成モデルの観点からラベルノイズ問題を再構成する。我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文参考訳（メタデータ） (2023-05-31T03:01:36Z)
End-to-end model for named entity recognition from speech without paired training data [12.66131972249388]
本稿では,意味情報を抽出するエンド・ツー・エンドのニューラルモデルを構築するアプローチを提案する。我々のアプローチは、テキストからベクトル表現のシーケンスを生成するために訓練された外部モデルを使用することに基づいている。 quEROコーパスを用いた名前付きエンティティ認識実験は,このアプローチが有望であることを示す。
論文参考訳（メタデータ） (2022-04-02T08:14:27Z)
Adaptive Memory Networks with Self-supervised Learning for Unsupervised Anomaly Detection [54.76993389109327]
教師なし異常検出は、通常のデータのみをトレーニングすることで、目に見えない異常を検出するモデルを構築することを目的としている。本稿では,これらの課題に対処するために,自己教師付き学習(AMSL)を用いた適応記憶ネットワーク(Adaptive Memory Network)を提案する。 AMSLには、一般的な正規パターンを学ぶための自己教師付き学習モジュールと、リッチな特徴表現を学ぶための適応型メモリ融合モジュールが組み込まれている。
論文参考訳（メタデータ） (2022-01-03T03:40:21Z)
Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文参考訳（メタデータ） (2021-10-12T18:21:23Z)
Bridging the Gap Between Clean Data Training and Real-World Inference for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文参考訳（メタデータ） (2021-04-13T17:54:33Z)
Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文参考訳（メタデータ） (2021-01-17T16:12:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。