Fugu-MT 論文翻訳(概要): The DKU-DUKEECE System for the Manipulation Region Location Task of ADD 2023

論文の概要: The DKU-DUKEECE System for the Manipulation Region Location Task of ADD 2023

arxiv url: http://arxiv.org/abs/2308.10281v1
Date: Sun, 20 Aug 2023 14:29:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 16:28:50.347090
Title: The DKU-DUKEECE System for the Manipulation Region Location Task of ADD 2023
Title（参考訳）: ADD2023の操作領域配置タスクのためのDKU-DUKEECEシステム
Authors: Zexin Cai, Weiqing Wang, Yikang Wang, Ming Li
Abstract要約: 本稿では,Audio Deepfake Detection Challenge (ADD 2023) のトラック2のためのシステムについて紹介する。我々のトップパフォーマンスソリューションは、82.23%の文精度と60.66%のF1スコアを達成する。その結果、最終的なABDスコアは0.6713となり、ABD 2023のトラック2で1位を獲得した。
参考スコア（独自算出の注目度）: 12.69800199589029
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces our system designed for Track 2, which focuses on locating manipulated regions, in the second Audio Deepfake Detection Challenge (ADD 2023). Our approach involves the utilization of multiple detection systems to identify splicing regions and determine their authenticity. Specifically, we train and integrate two frame-level systems: one for boundary detection and the other for deepfake detection. Additionally, we employ a third VAE model trained exclusively on genuine data to determine the authenticity of a given audio clip. Through the fusion of these three systems, our top-performing solution for the ADD challenge achieves an impressive 82.23% sentence accuracy and an F1 score of 60.66%. This results in a final ADD score of 0.6713, securing the first rank in Track 2 of ADD 2023.
Abstract（参考訳）: 本稿では,第2回Audio Deepfake Detection Challenge (ADD 2023)において,操作領域の配置に着目したトラック2の設計について述べる。提案手法では,複数の検出システムを用いてスプライシング領域を識別し,その信頼性を判定する。具体的には,境界検出とディープフェイク検出の2つのフレームレベルシステムを訓練し,統合する。さらに,実データのみをトレーニングした第3のvaeモデルを用いて,音声クリップの真正性判定を行う。これら3つのシステムを統合することで、ADDチャレンジの最高のパフォーマンスソリューションは、82.23%の文精度とF1スコアの60.66%を達成した。その結果、ADDスコアは0.6713となり、ADD 2023のトラック2で1位を獲得した。

関連論文リスト

Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文参考訳（メタデータ） (2024-10-31T13:13:32Z)
Speech Foundation Model Ensembles for the Controlled Singing Voice Deepfake Detection (CtrSVDD) Challenge 2024 [8.940008511570207]
本研究は,1.79%のプールド等誤り率(EER)で先行システムを実現するための我々のアプローチを詳述する。生成AIモデルの急速な進歩は、AIが生成するディープフェイクの歌声を検出する上で重要な課題である。 Singing Voice Deepfake Detection (SVDD) Challenge 2024は、この複雑な課題に対処することを目的としている。
論文参考訳（メタデータ） (2024-09-03T21:28:45Z)
The Ninth NTIRE 2024 Efficient Super-Resolution Challenge Report [180.94772271910315]
本稿は,NTIRE 2024の課題を概観し,効率的な単一画像超解像(ESR)ソリューションに焦点をあてる。主な目的は、ランタイム、パラメータ、FLOPなどの様々な側面を最適化するネットワークを開発することである。このチャレンジには262人の登録参加者が参加し、34チームが有効な応募を行った。
論文参考訳（メタデータ） (2024-04-16T07:26:20Z)
Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。提案手法の有効性を広範囲な実験により実証する。
論文参考訳（メタデータ） (2024-04-06T13:14:04Z)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文参考訳（メタデータ） (2024-01-07T08:59:32Z)
Sparse4D v3: Advancing End-to-End 3D Detection and Tracking [12.780544029261353]
本稿では,2つの補助訓練タスクを導入し,構造的改善のための分離された注意点を提案する。推論中にインスタンスIDを割り当てる簡単なアプローチを使用して、検出器をトラッカーに拡張する。我々の最良のモデルは nuScenes テストセットで 71.9% NDS と 67.7% AMOTA を達成した。
論文参考訳（メタデータ） (2023-11-20T12:37:58Z)
TranssionADD: A multi-frame reinforcement based sequence tagging model for audio deepfake detection [11.27584658526063]
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ディープフェイク音声の検出と分析を目的としている。本稿では,モデルロバストネスと音声セグメント出力の解法として,新しいTranssionADDシステムを提案する。提案システムの有効性とロバスト性を実証し, トラック2で2位となった。
論文参考訳（メタデータ） (2023-06-27T05:18:25Z)
SSDA3D: Semi-supervised Domain Adaptation for 3D Object Detection from Point Cloud [125.9472454212909]
本稿では,3次元物体検出(SSDA3D)のための半改良型領域適応法を提案する。 SSDA3Dはドメイン間適応ステージとドメイン内一般化ステージを含む。実験の結果,10%のラベル付きターゲットデータしか持たないSSDA3Dは,100%のターゲットラベルを持つ完全教師付きオラクルモデルを上回ることができることがわかった。
論文参考訳（メタデータ） (2022-12-06T09:32:44Z)
The Royalflush System for VoxCeleb Speaker Recognition Challenge 2022 [4.022057598291766]
VoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)のRoyalflush申請について述べる。トラック1では,対称構造を持つ強力なU-Net型話者埋め込み抽出器を開発した。トラック3では、話者埋め込み抽出器を得るために、ソースドメインの監督とターゲットドメインの自己監督を共同で訓練する。
論文参考訳（メタデータ） (2022-09-19T13:35:36Z)
USTC-NELSLIP System Description for DIHARD-III Challenge [78.40959509760488]
我々のシステムの革新は、ダイアリゼーション問題を解決するための様々なフロントエンド技術の組み合わせにある。私達の最もよいシステムは評価セットのトラック1および16.78%のトラック2で11.30%のDERを達成しました。
論文参考訳（メタデータ） (2021-03-19T07:00:51Z)
DIHARD II is Still Hard: Experimental Results and Discussions from the DKU-LENOVO Team [22.657782236219933]
本稿では,DKULEチームによる第2回DIHARD音声ダイアリゼーションチャレンジの提出システムについて述べる。我々のダイアリゼーションシステムには、音声活動検出(VAD)、セグメンテーション、話者埋め込み抽出、類似度スコアリング、クラスタリング、分離、重複検出といった複数のモジュールが含まれている。当社のシステムでは、公式基準に対してDerを27.5%、31.7%削減していますが、ダイアリゼーションタスクは依然として非常に難しいと考えています。
論文参考訳（メタデータ） (2020-02-23T11:50:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。