論文の概要: The DKU-DUKEECE System for the Manipulation Region Location Task of ADD
2023
- arxiv url: http://arxiv.org/abs/2308.10281v1
- Date: Sun, 20 Aug 2023 14:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:28:50.347090
- Title: The DKU-DUKEECE System for the Manipulation Region Location Task of ADD
2023
- Title(参考訳): ADD2023の操作領域配置タスクのためのDKU-DUKEECEシステム
- Authors: Zexin Cai, Weiqing Wang, Yikang Wang, Ming Li
- Abstract要約: 本稿では,Audio Deepfake Detection Challenge (ADD 2023) のトラック2のためのシステムについて紹介する。
我々のトップパフォーマンスソリューションは、82.23%の文精度と60.66%のF1スコアを達成する。
その結果、最終的なABDスコアは0.6713となり、ABD 2023のトラック2で1位を獲得した。
- 参考スコア(独自算出の注目度): 12.69800199589029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces our system designed for Track 2, which focuses on
locating manipulated regions, in the second Audio Deepfake Detection Challenge
(ADD 2023). Our approach involves the utilization of multiple detection systems
to identify splicing regions and determine their authenticity. Specifically, we
train and integrate two frame-level systems: one for boundary detection and the
other for deepfake detection. Additionally, we employ a third VAE model trained
exclusively on genuine data to determine the authenticity of a given audio
clip. Through the fusion of these three systems, our top-performing solution
for the ADD challenge achieves an impressive 82.23% sentence accuracy and an F1
score of 60.66%. This results in a final ADD score of 0.6713, securing the
first rank in Track 2 of ADD 2023.
- Abstract(参考訳): 本稿では,第2回Audio Deepfake Detection Challenge (ADD 2023)において,操作領域の配置に着目したトラック2の設計について述べる。
提案手法では,複数の検出システムを用いてスプライシング領域を識別し,その信頼性を判定する。
具体的には,境界検出とディープフェイク検出の2つのフレームレベルシステムを訓練し,統合する。
さらに,実データのみをトレーニングした第3のvaeモデルを用いて,音声クリップの真正性判定を行う。
これら3つのシステムを統合することで、ADDチャレンジの最高のパフォーマンスソリューションは、82.23%の文精度とF1スコアの60.66%を達成した。
その結果、ADDスコアは0.6713となり、ADD 2023のトラック2で1位を獲得した。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech
Recognition [68.70787870401159]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Sparse4D v3: Advancing End-to-End 3D Detection and Tracking [12.780544029261353]
本稿では,2つの補助訓練タスクを導入し,構造的改善のための分離された注意点を提案する。
推論中にインスタンスIDを割り当てる簡単なアプローチを使用して、検出器をトラッカーに拡張する。
我々の最良のモデルは nuScenes テストセットで 71.9% NDS と 67.7% AMOTA を達成した。
論文 参考訳(メタデータ) (2023-11-20T12:37:58Z) - Towards Generalizable Deepfake Detection by Primary Region
Regularization [52.41801719896089]
本稿では,新しい正規化の観点から一般化能力を高める。
本手法は, 一次領域マップの静的な位置決めと, 一次領域マスクの動的利用の2段階からなる。
5つのバックボーンを持つDFDC,DF-1.0,Celeb-DFの3種類のディープフェイクデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-07-24T05:43:34Z) - TranssionADD: A multi-frame reinforcement based sequence tagging model
for audio deepfake detection [11.27584658526063]
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ディープフェイク音声の検出と分析を目的としている。
本稿では,モデルロバストネスと音声セグメント出力の解法として,新しいTranssionADDシステムを提案する。
提案システムの有効性とロバスト性を実証し, トラック2で2位となった。
論文 参考訳(メタデータ) (2023-06-27T05:18:25Z) - SSDA3D: Semi-supervised Domain Adaptation for 3D Object Detection from
Point Cloud [125.9472454212909]
本稿では,3次元物体検出(SSDA3D)のための半改良型領域適応法を提案する。
SSDA3Dはドメイン間適応ステージとドメイン内一般化ステージを含む。
実験の結果,10%のラベル付きターゲットデータしか持たないSSDA3Dは,100%のターゲットラベルを持つ完全教師付きオラクルモデルを上回ることができることがわかった。
論文 参考訳(メタデータ) (2022-12-06T09:32:44Z) - The Royalflush System for VoxCeleb Speaker Recognition Challenge 2022 [4.022057598291766]
VoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)のRoyalflush申請について述べる。
トラック1では,対称構造を持つ強力なU-Net型話者埋め込み抽出器を開発した。
トラック3では、話者埋め込み抽出器を得るために、ソースドメインの監督とターゲットドメインの自己監督を共同で訓練する。
論文 参考訳(メタデータ) (2022-09-19T13:35:36Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - USTC-NELSLIP System Description for DIHARD-III Challenge [78.40959509760488]
我々のシステムの革新は、ダイアリゼーション問題を解決するための様々なフロントエンド技術の組み合わせにある。
私達の最もよいシステムは評価セットのトラック1および16.78%のトラック2で11.30%のDERを達成しました。
論文 参考訳(メタデータ) (2021-03-19T07:00:51Z) - 2nd Place Solution for Waymo Open Dataset Challenge -- 2D Object
Detection [7.807118356899879]
本報告では、自律走行シナリオのための最先端2次元物体検出システムについて紹介する。
我々は、人気のある2段検出器と1段検出器をアンカーフリーで統合し、堅牢な検出を行う。
論文 参考訳(メタデータ) (2020-06-28T04:50:16Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z) - DIHARD II is Still Hard: Experimental Results and Discussions from the
DKU-LENOVO Team [22.657782236219933]
本稿では,DKULEチームによる第2回DIHARD音声ダイアリゼーションチャレンジの提出システムについて述べる。
我々のダイアリゼーションシステムには、音声活動検出(VAD)、セグメンテーション、話者埋め込み抽出、類似度スコアリング、クラスタリング、分離、重複検出といった複数のモジュールが含まれている。
当社のシステムでは、公式基準に対してDerを27.5%、31.7%削減していますが、ダイアリゼーションタスクは依然として非常に難しいと考えています。
論文 参考訳(メタデータ) (2020-02-23T11:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。