論文の概要: Neural Codec Source Tracing: Toward Comprehensive Attribution in Open-Set Condition
- arxiv url: http://arxiv.org/abs/2501.06514v1
- Date: Sat, 11 Jan 2025 11:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:21:59.066244
- Title: Neural Codec Source Tracing: Toward Comprehensive Attribution in Open-Set Condition
- Title(参考訳): ニューラルコーデックソーストラクション:オープンセット条件における包括的帰属に向けて
- Authors: Yuankun Xie, Xiaopeng Wang, Zhiyong Wang, Ruibo Fu, Zhengqi Wen, Songjun Cao, Long Ma, Chenxing Li, Haonnan Cheng, Long Ye,
- Abstract要約: 我々は、オープンセットのニューラルネットワーク分類と解釈可能なALM検出を行うことができるNCSTタスクを定義する。
我々はNCSTモデルをオープンな条件下で評価するための総合的なソーストレースベンチマークを構築した。
- 参考スコア(独自算出の注目度): 26.05962715384438
- License:
- Abstract: Current research in audio deepfake detection is gradually transitioning from binary classification to multi-class tasks, referred as audio deepfake source tracing task. However, existing studies on source tracing consider only closed-set scenarios and have not considered the challenges posed by open-set conditions. In this paper, we define the Neural Codec Source Tracing (NCST) task, which is capable of performing open-set neural codec classification and interpretable ALM detection. Specifically, we constructed the ST-Codecfake dataset for the NCST task, which includes bilingual audio samples generated by 11 state-of-the-art neural codec methods and ALM-based out-ofdistribution (OOD) test samples. Furthermore, we establish a comprehensive source tracing benchmark to assess NCST models in open-set conditions. The experimental results reveal that although the NCST models perform well in in-distribution (ID) classification and OOD detection, they lack robustness in classifying unseen real audio. The ST-codecfake dataset and code are available.
- Abstract(参考訳): オーディオディープフェイク検出の現在の研究は、バイナリ分類から、オーディオディープフェイクソーストレースタスクと呼ばれるマルチクラスタスクへと徐々に移行している。
しかし、ソーストレースに関する既存の研究は、クローズド・セットのシナリオのみを考慮し、オープン・セットの条件によって引き起こされる課題を考慮していない。
本稿では,オープンセット型ニューラルコーデック分類と解釈可能なALM検出が可能なニューラルコーデックソーストレース(NCST)タスクを定義する。
具体的には、11の最先端のニューラルコーデック法とALMベースのアウト・オブ・ディストリビューション(OOD)テストサンプルによって生成されたバイリンガルオーディオサンプルを含むNCSTタスクのためのST-Codecfakeデータセットを構築した。
さらに,オープンセット条件下でNCSTモデルを評価するための総合的ソーストレースベンチマークを構築した。
実験結果から,NCSTモデルはID分類やOOD検出において良好に機能するが,未確認実音声の分類には頑健さが欠如していることが判明した。
ST-codecfakeデータセットとコードは利用可能である。
関連論文リスト
- The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio [42.84634652376024]
ALMベースのディープフェイクオーディオは、広範に広範に、高い騙しと、多目的性を示す。
本研究では,ALMに基づくディープフェイク音声を効果的に検出するために,ALMに基づく音声生成手法のメカニズムに着目した。
ドメインバランスと一般化されたミニマを学習するための CSAM 戦略を提案する。
論文 参考訳(メタデータ) (2024-05-08T08:28:40Z) - TT-NF: Tensor Train Neural Fields [88.49847274083365]
そこで本研究では,Train Neural Fields (TT-NF) と呼ばれる新しい低ランク表現を導入した。
ダウンストリームタスク品質指標に対する低ランク圧縮の影響を解析する。
論文 参考訳(メタデータ) (2022-09-30T15:17:39Z) - Iterative Sound Source Localization for Unknown Number of Sources [57.006589498243336]
終端基準を満たすまで、各音源のDOAをしきい値なしで反復的に抽出できるISSLと呼ばれる反復音源定位手法を提案する。
我々のISSLは、既存のしきい値ベースのアルゴリズムと比較して、DOA推定とソース番号検出の両方で大幅な性能改善を実現しています。
論文 参考訳(メタデータ) (2022-06-24T13:19:44Z) - CNN-DST: ensemble deep learning based on Dempster-Shafer theory for
vibration-based fault recognition [0.0]
本研究では,畳み込みニューラルネットワーク(CNN)とDempster-Shafer理論(DST)に基づくアンサンブル深層学習フレームワークを提案する。
提案したCNN-DSTフレームワークを検証するために,多結晶ニッケル合金第一段タービンブレードのブロードバンド振動応答を用いて作成した実験データセットに適用した。
提案したCNN-DSTフレームワークはタービンブレードを平均予測精度97.19%で分類する。
論文 参考訳(メタデータ) (2021-10-14T07:34:27Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - NSL: Hybrid Interpretable Learning From Noisy Raw Data [66.15862011405882]
本稿では,ラベル付き非構造データから解釈可能なルールを学習するニューラルシンボリック学習フレームワークNSLを提案する。
NSLは、機能抽出のためのトレーニング済みニューラルネットワークと、解集合セマンティクスに基づくルール学習のための最先端のILPシステムであるFastLASを組み合わせる。
NSLは、MNISTデータから堅牢なルールを学び、ニューラルネットワークやランダムフォレストベースラインと比較して、比較または優れた精度を達成できることを実証します。
論文 参考訳(メタデータ) (2020-12-09T13:02:44Z) - Open Set Recognition with Conditional Probabilistic Generative Models [51.40872765917125]
オープンセット認識のための条件付き確率生成モデル(CPGM)を提案する。
CPGMは未知のサンプルを検出できるが、異なる潜在特徴を条件付きガウス分布に近似させることで、既知のクラスを分類できる。
複数のベンチマークデータセットの実験結果から,提案手法がベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-08-12T06:23:49Z) - A Systematic Search over Deep Convolutional Neural Network Architectures
for Screening Chest Radiographs [4.6411273009803065]
胸部X線写真は肺・胸部疾患のスクリーニングに用いられる。
近年の取り組みは、深層畳み込みニューラルネットワーク(CNN)のアンサンブルを用いた性能ベンチマークを実証している。
複数の標準CNNアーキテクチャを体系的に探索し、分類性能がアンサンブルと同等であることが判明した単一候補モデルを特定した。
論文 参考訳(メタデータ) (2020-04-24T12:30:40Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - OCmst: One-class Novelty Detection using Convolutional Neural Network
and Minimum Spanning Trees [0.9569316316728905]
畳み込みニューラルネットワーク(CNN)を深部特徴抽出器とし,最小スパンニング木(MST)に基づくグラフベースモデルを用いた新規性検出問題に対する1クラス最小スパンニング木(OCmst)と呼ばれる新しいモデルを提案する。
新規検出シナリオでは、トレーニングデータは、外れ値(異常なクラス)によって汚染されず、テストインスタンスが正常なクラスに属しているか、または異常なクラスに属しているかを認識することが目的である。
論文 参考訳(メタデータ) (2020-03-30T14:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。