論文の概要: Cross-Corpora Spoken Language Identification with Domain Diversification
and Generalization
- arxiv url: http://arxiv.org/abs/2302.05110v1
- Date: Fri, 10 Feb 2023 08:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 16:22:53.398777
- Title: Cross-Corpora Spoken Language Identification with Domain Diversification
and Generalization
- Title(参考訳): ドメインの多様化と一般化によるクロスコーポラ音声言語識別
- Authors: Spandan Dey, Md Sahidullah, Goutam Saha
- Abstract要約: 本研究は、低リソース音声言語識別問題に対するクロスコーパス一般化問題に対処する。
本稿では,異なる音声データ拡張手法を用いて,限られた訓練データを多様化する領域の多様化を提案する。
また,拡張手法を擬似ドメインとして考慮した領域一般化の考え方も紹介する。
- 参考スコア(独自算出の注目度): 7.27448284043116
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work addresses the cross-corpora generalization issue for the
low-resourced spoken language identification (LID) problem. We have conducted
the experiments in the context of Indian LID and identified strikingly poor
cross-corpora generalization due to corpora-dependent non-lingual biases. Our
contribution to this work is twofold. First, we propose domain diversification,
which diversifies the limited training data using different audio data
augmentation methods. We then propose the concept of maximally diversity-aware
cascaded augmentations and optimize the augmentation fold-factor for effective
diversification of the training data. Second, we introduce the idea of domain
generalization considering the augmentation methods as pseudo-domains. Towards
this, we investigate both domain-invariant and domain-aware approaches. Our LID
system is based on the state-of-the-art emphasized channel attention,
propagation, and aggregation based time delay neural network (ECAPA-TDNN)
architecture. We have conducted extensive experiments with three widely used
corpora for Indian LID research. In addition, we conduct a final blind
evaluation of our proposed methods on the Indian subset of VoxLingua107 corpus
collected in the wild. Our experiments demonstrate that the proposed domain
diversification is more promising over commonly used simple augmentation
methods. The study also reveals that domain generalization is a more effective
solution than domain diversification. We also notice that domain-aware learning
performs better for same-corpora LID, whereas domain-invariant learning is more
suitable for cross-corpora generalization. Compared to basic ECAPA-TDNN, its
proposed domain-invariant extensions improve the cross-corpora EER up to 5.23%.
In contrast, the proposed domain-aware extensions also improve performance for
same-corpora test scenarios.
- Abstract(参考訳): 本研究は低リソース音声言語識別(LID)問題に対するクロスコーパス一般化問題に対処する。
本研究では,インドリッドの文脈で実験を行い,コーパス依存の非言語バイアスによるクロスコーポラ一般化が著しく不良であることを確認した。
この仕事への私たちの貢献は2倍です。
まず、異なる音声データ拡張手法を用いて、限られたトレーニングデータを多様化するドメイン多様化を提案する。
次に,最大に多様性を意識したカスケード拡張の概念を提案し,学習データの効果的な多様化のために拡張係数を最適化する。
次に,拡張手法を擬似ドメインとして考える領域一般化の考え方を紹介する。
そこで本研究では,ドメイン不変性とドメイン認識の両方のアプローチについて検討する。
我々のLIDシステムは、チャネルアテンション、伝搬、集約に基づく時間遅延ニューラルネットワーク(ECAPA-TDNN)アーキテクチャの最先端に重点を置いている。
インドにおけるLID研究に広く用いられている3つのコーパスを用いて広範な実験を行った。
さらに,野生で採取したVoxLingua107コーパスのインドサブセットについて,提案手法の盲点評価を行った。
実験により,提案する領域の多様化が,一般的な単純な拡張法よりも有望であることを実証した。
この研究はまた、ドメインの一般化はドメインの多様化よりも効果的な解決策であることも明らかにしている。
また、ドメイン認識学習は同一コーパスのLIDに対して優れており、一方、ドメイン不変学習はクロスコーパスの一般化に適している。
ECAPA-TDNNと比較して、提案されたドメイン不変拡張はクロスコーパスEERを5.23%改善した。
対照的に、提案されたドメインアウェア拡張は、同じコーポラテストシナリオのパフォーマンスも改善する。
関連論文リスト
- Uncertainty-guided Contrastive Learning for Single Source Domain Generalisation [15.907643838530655]
本稿では,Contrastive Uncertainty Domain Generalisation Network(CUDGNet)と呼ばれる新しいモデルを紹介する。
鍵となるアイデアは、架空のドメインジェネレータを通じて、入力空間とラベル空間の両方のソース容量を増大させることである。
また,提案手法は,1つのフォワードパスからジェネレータサブネットワークを経由した推論時間における効率的な不確実性推定も提供する。
論文 参考訳(メタデータ) (2024-03-12T10:47:45Z) - Improving Intrusion Detection with Domain-Invariant Representation Learning in Latent Space [4.871119861180455]
マルチタスク学習を用いた2相表現学習手法を提案する。
我々は、先行空間と潜時空間の間の相互情報の最小化により、潜時空間を解き放つ。
モデルの有効性を複数のサイバーセキュリティデータセットで評価する。
論文 参考訳(メタデータ) (2023-12-28T17:24:13Z) - Revisiting the Domain Shift and Sample Uncertainty in Multi-source
Active Domain Transfer [69.82229895838577]
Active Domain Adaptation (ADA)は、アノテートするターゲットデータの限られた数を選択することで、新しいターゲットドメインにおけるモデル適応を最大限に向上することを目的としている。
この設定は、複数のソースからトレーニングデータを収集するより実践的なシナリオを無視します。
これは、ADAを単一のソースドメインから複数のソースドメインに拡張する、新しい、挑戦的な知識転送の設定を目標にしています。
論文 参考訳(メタデータ) (2023-11-21T13:12:21Z) - NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。
本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。
テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-07-25T13:35:45Z) - Label Distribution Learning for Generalizable Multi-source Person
Re-identification [48.77206888171507]
人物再識別(Re-ID)は,映像監視システムにおいて重要な技術である。
教師付きモデルを任意の未確認領域に直接適用することは困難である。
一般化可能な多ソース人物Re-IDタスクに対処する新しいラベル分散学習法(LDL)を提案する。
論文 参考訳(メタデータ) (2022-04-12T15:59:10Z) - A Novel Mix-normalization Method for Generalizable Multi-source Person
Re-identification [49.548815417844786]
人物再識別(Re-ID)は、監督されたシナリオにおいて大きな成功を収めた。
モデルがソースドメインに過度に適合するため、教師付きモデルを任意の未確認領域に直接転送することは困難である。
ドメイン・アウェア・ミックス正規化(DMN)とドメイン・ウェア・センター正規化(DCR)からなるMixNormを提案する。
論文 参考訳(メタデータ) (2022-01-24T18:09:38Z) - FixBi: Bridging Domain Spaces for Unsupervised Domain Adaptation [26.929772844572213]
我々は、ソースとターゲットドメイン間の複数の中間ドメインを拡大するために、固定比に基づくミックスアップを導入する。
我々は、相補的な特性を持つソース支配モデルとターゲット支配モデルを訓練する。
提案手法により,モデルが対象ドメインに徐々にドメイン知識を伝達する。
論文 参考訳(メタデータ) (2020-11-18T11:58:19Z) - Curriculum CycleGAN for Textual Sentiment Domain Adaptation with
Multiple Sources [68.31273535702256]
我々は,C-CycleGAN(C-CycleGAN)という,新しいインスタンスレベルのMDAフレームワークを提案する。
C-CycleGANは、(1)異なるドメインからのテキスト入力を連続的な表現空間にエンコードする事前訓練されたテキストエンコーダ、(2)ソースとターゲットドメイン間のギャップを埋めるカリキュラムインスタンスレベルの適応を伴う中間ドメインジェネレータ、(3)中間ドメインで最終感情分類のために訓練されたタスク分類器の3つのコンポーネントから構成される。
3つのベンチマークデータセットに対して広範な実験を行い、最先端のDAアプローチよりも大幅に向上した。
論文 参考訳(メタデータ) (2020-11-17T14:50:55Z) - Domain Conditioned Adaptation Network [90.63261870610211]
本稿では,ドメイン条件付きチャネルアテンション機構を用いて,異なる畳み込みチャネルを励起するドメイン条件適応ネットワーク(DCAN)を提案する。
これは、ディープDAネットワークのドメインワイドな畳み込みチャネルアクティベーションを探求する最初の試みである。
論文 参考訳(メタデータ) (2020-05-14T04:23:24Z) - Mind the Gap: Enlarging the Domain Gap in Open Set Domain Adaptation [65.38975706997088]
オープンセットドメイン適応(OSDA)は、ターゲットドメインに未知のクラスが存在することを前提としている。
既存の最先端手法は、より大きなドメインギャップが存在する場合、かなりの性能低下を被ることを示す。
我々は、より大きなドメインギャップに特に対処するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-08T14:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。