論文の概要: Audio-based Kinship Verification Using Age Domain Conversion
- arxiv url: http://arxiv.org/abs/2410.11120v1
- Date: Mon, 14 Oct 2024 22:08:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:00:50.333160
- Title: Audio-based Kinship Verification Using Age Domain Conversion
- Title(参考訳): 年齢領域変換を用いた音声による親和性検証
- Authors: Qiyang Sun, Alican Akman, Xin Jing, Manuel Milling, Björn W. Schuller,
- Abstract要約: このタスクの主な課題は、異なる個人からのサンプル間の年齢差から生じる。
我々は、最適化されたCycleGAN-VC3ネットワークを利用して、年齢変換を行い、ドメイン内オーディオを生成する。
生成されたオーディオデータセットを使用して、さまざまな機能を抽出し、それをメトリック学習アーキテクチャに入力し、親族性を検証する。
- 参考スコア(独自算出の注目度): 39.4890403254022
- License:
- Abstract: Audio-based kinship verification (AKV) is important in many domains, such as home security monitoring, forensic identification, and social network analysis. A key challenge in the task arises from differences in age across samples from different individuals, which can be interpreted as a domain bias in a cross-domain verification task. To address this issue, we design the notion of an "age-standardised domain" wherein we utilise the optimised CycleGAN-VC3 network to perform age-audio conversion to generate the in-domain audio. The generated audio dataset is employed to extract a range of features, which are then fed into a metric learning architecture to verify kinship. Experiments are conducted on the KAN_AV audio dataset, which contains age and kinship labels. The results demonstrate that the method markedly enhances the accuracy of kinship verification, while also offering novel insights for future kinship verification research.
- Abstract(参考訳): 音声による親族関係の検証(AKV)は、ホームセキュリティ監視、法医学的識別、ソーシャルネットワーク分析など、多くの分野において重要である。
タスクにおける重要な課題は、異なる個人からのサンプル間の年齢差から生じ、ドメイン間の検証タスクにおいてドメインバイアスと解釈できる。
この問題に対処するために、最適化されたCycleGAN-VC3ネットワークを利用して、年齢・オーディオ変換を行い、ドメイン内オーディオを生成する「エージェント標準化ドメイン」の概念を設計する。
生成されたオーディオデータセットを使用して、さまざまな機能を抽出し、それをメトリック学習アーキテクチャに入力し、親族性を検証する。
年齢と血縁ラベルを含むkan_AVオーディオデータセットを用いて実験を行った。
以上の結果から,本手法は血縁検証の精度を著しく向上するとともに,今後の血縁検証研究に新たな知見を提供する。
関連論文リスト
- Benchmarking Cross-Domain Audio-Visual Deception Detection [45.342156006617394]
本稿では,最初のクロスドメイン音声・視覚的誤認検出ベンチマークを提案する。
シングル・ツー・シングルとマルチ・ツー・シングル・ドメインの一般化性能を比較した。
一般化性能を向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-11T12:06:31Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Dual Domain-Adversarial Learning for Audio-Visual Saliency Prediction [17.691475370621]
ディープ畳み込みニューラルネットワーク(CNN)は、オーディオ-視覚的サリエンシ予測タスクに対処する上で、強力な能力を示す。
撮影シーンや天気などの様々な要因により、ソーストレーニングデータとターゲットテストデータの間には、適度な分布差がしばしば存在する。
本稿では、ソースデータとターゲットデータとのドメイン差を緩和する2つのドメイン対逆学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T08:50:32Z) - Frequency Spectrum Augmentation Consistency for Domain Adaptive Object
Detection [107.52026281057343]
周波数スペクトル拡張整合(FSAC)フレームワークを4種類の低周波フィルタで構成する。
最初の段階では、オリジナルおよび拡張されたソースデータを全て利用して、オブジェクト検出器を訓練する。
第2段階では、予測一貫性のための自己学習を行うために、擬似ラベル付き拡張現実とターゲットデータを採用する。
論文 参考訳(メタデータ) (2021-12-16T04:07:01Z) - TASK3 DCASE2021 Challenge: Sound event localization and detection using
squeeze-excitation residual CNNs [4.4973334555746]
この調査は、昨年同じチームが実施した調査に基づいています。
この手法がそれぞれのデータセットをどのように改善するかを研究することが決定された。
この修正は,MICデータセットを用いたベースラインと比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2021-07-30T11:34:15Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。