論文の概要: Multi-perspective Information Fusion Res2Net with RandomSpecmix for Fake
Speech Detection
- arxiv url: http://arxiv.org/abs/2306.15389v1
- Date: Tue, 27 Jun 2023 11:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 13:42:09.602110
- Title: Multi-perspective Information Fusion Res2Net with RandomSpecmix for Fake
Speech Detection
- Title(参考訳): フェイク音声検出のためのRandomSpecmixを用いたマルチパースペクティブ情報融合Res2Net
- Authors: Shunbo Dong, Jun Xue, Cunhang Fan, Kang Zhu, Yujie Chen, Zhao Lv
- Abstract要約: 偽音声検出(FSD)のためのランダムなSpecmixを用いたMPIF(Multi-Perspective Information fusion) Res2Netを提案する。
本システムの主な目的は、低品質シナリオにおけるFSDタスクの正確な偽情報学習能力を向上させることである。
提案されたMPIF-Res2Netは、異なる視点から情報を抽出し、モデルによって学習された情報をより多様なものにする。
- 参考スコア(独自算出の注目度): 5.984561168501493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose the multi-perspective information fusion (MPIF)
Res2Net with random Specmix for fake speech detection (FSD). The main purpose
of this system is to improve the model's ability to learn precise forgery
information for FSD task in low-quality scenarios. The task of random Specmix,
a data augmentation, is to improve the generalization ability of the model and
enhance the model's ability to locate discriminative information. Specmix cuts
and pastes the frequency dimension information of the spectrogram in the same
batch of samples without introducing other data, which helps the model to
locate the really useful information. At the same time, we randomly select
samples for augmentation to reduce the impact of data augmentation directly
changing all the data. Once the purpose of helping the model to locate
information is achieved, it is also important to reduce unnecessary
information. The role of MPIF-Res2Net is to reduce redundant interference
information. Deceptive information from a single perspective is always similar,
so the model learning this similar information will produce redundant spoofing
clues and interfere with truly discriminative information. The proposed
MPIF-Res2Net fuses information from different perspectives, making the
information learned by the model more diverse, thereby reducing the redundancy
caused by similar information and avoiding interference with the learning of
discriminative information. The results on the ASVspoof 2021 LA dataset
demonstrate the effectiveness of our proposed method, achieving EER and
min-tDCF of 3.29% and 0.2557, respectively.
- Abstract(参考訳): 本稿では,偽音声検出(FSD)のためのランダムなSpecmixを用いたMPIF (Multi-perspective Information fusion) Res2Netを提案する。
本システムの主な目的は、低品質シナリオにおけるFSDタスクの正確な偽情報学習能力を向上させることである。
データ拡張であるランダム・スペックミックスのタスクは、モデルの一般化能力を高め、モデルの識別情報を見つける能力を高めることである。
specmixは、同じサンプルでスペクトログラムの周波数次元情報をカット&ペーストすることで、他のデータを導入することなく、モデルが本当に有用な情報を見つけるのに役立ちます。
同時に、データ拡張のサンプルをランダムに選択して、すべてのデータを直接変更するデータ拡張の影響を低減する。
モデルが情報を見つけるのを助ける目的が達成されれば、不要な情報を減らすことも重要である。
MPIF-Res2Netの役割は、冗長な干渉情報を減らすことである。
単一視点からの偽情報は常に類似しており、この類似情報を学ぶモデルは冗長な偽情報を生成し、真に差別的な情報を妨害する。
提案するmpif-res2netは,異なる視点から情報を融合させ,モデルが学習する情報をより多様化し,類似情報による冗長性を低減し,識別情報の学習への干渉を回避する。
ASVspoof 2021 LAデータセットの結果は,提案手法の有効性を示し,EERとmin-tDCFはそれぞれ3.29%,0.2557であった。
関連論文リスト
- Bi-temporal Gaussian Feature Dependency Guided Change Detection in Remote Sensing Images [17.674955288033974]
変化検出 (CD) 法は, 多時間画像における領域情報の違いによる疑似変化の解決に依然として苦慮している。
この問題に対処するため、両時間ガウス分布特徴依存ネットワーク(BGFD)を提案する。
BGFDは擬似的変化を効果的に低減し、詳細情報の検出能力を高めた。
論文 参考訳(メタデータ) (2024-10-12T14:01:41Z) - Quantifying Spuriousness of Biased Datasets Using Partial Information Decomposition [14.82261635235695]
純粋パターン(spurious pattern)とは、因果関係のないデータセットにおける2つ以上の変数間の数学的関連である。
本研究は,PID(Partial Information Decomposition)と呼ばれる数学的枠組みを用いて,データセット(スプリアス特徴とコア特徴の分割を含む)におけるスプリアス性の最初の情報理論的な定式化を提示する。
我々は、刺激的特徴と中核的特徴が他の対象変数について共有する結合情報内容、すなわちユニーク、冗長、シナジスティックな情報を分離する。
論文 参考訳(メタデータ) (2024-06-29T16:05:47Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Enhancing Information Maximization with Distance-Aware Contrastive
Learning for Source-Free Cross-Domain Few-Shot Learning [55.715623885418815]
クロスドメインのFew-Shot Learningメソッドは、トレーニング前のフェーズでモデルをトレーニングするために、ソースドメインデータにアクセスする必要がある。
データプライバシやデータ送信やトレーニングコストの削減に対する懸念が高まっているため,ソースデータにアクセスせずにCDFSLソリューションを開発する必要がある。
本稿では,これらの課題に対処するための距離対応コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T12:10:24Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Informative Data Selection with Uncertainty for Multi-modal Object
Detection [25.602915381482468]
普遍的不確実性を考慮したマルチモーダル融合モデルを提案する。
本モデルでは,融合時のランダム性を低減し,信頼性の高い出力を生成する。
我々の核融合モデルでは、ガウス、運動のぼやけ、凍土のような激しいノイズ干渉に対してわずかにしか耐えられないことが証明されている。
論文 参考訳(メタデータ) (2023-04-23T16:36:13Z) - Y-GAN: Learning Dual Data Representations for Efficient Anomaly
Detection [0.0]
本稿では,Y-GANと呼ばれる新しい再構成モデルを提案する。
モデルはY字型のオートエンコーダで構成され、2つの別々の潜在空間の画像を表現している。
論文 参考訳(メタデータ) (2021-09-28T20:17:04Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。