論文の概要: Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network
- arxiv url: http://arxiv.org/abs/2207.14568v1
- Date: Fri, 29 Jul 2022 09:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 13:13:11.067412
- Title: Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network
- Title(参考訳): 生成型adversarial networkに基づく非ペア音声・音声シーケンスからの電話認識の学習
- Authors: Da-rong Liu, Po-chun Hsu, Yi-chen Chen, Sung-feng Huang, Shun-po
Chuang, Da-yi Wu, and Hung-yi Lee
- Abstract要約: そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
- 参考スコア(独自算出の注目度): 58.82343017711883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ASR has been shown to achieve great performance recently. However, most of
them rely on massive paired data, which is not feasible for low-resource
languages worldwide. This paper investigates how to learn directly from
unpaired phone sequences and speech utterances. We design a two-stage iterative
framework. GAN training is adopted in the first stage to find the mapping
relationship between unpaired speech and phone sequence. In the second stage,
another HMM model is introduced to train from the generator's output, which
boosts the performance and provides a better segmentation for the next
iteration. In the experiment, we first investigate different choices of model
designs. Then we compare the framework to different types of baselines: (i)
supervised methods (ii) acoustic unit discovery based methods (iii) methods
learning from unpaired data. Our framework performs consistently better than
all acoustic unit discovery methods and previous methods learning from unpaired
data based on the TIMIT dataset.
- Abstract(参考訳): ASRは近年、優れたパフォーマンスを発揮することが示されている。
しかし、そのほとんどは大量のペアデータに依存しており、世界中の低リソース言語では実現できない。
本稿では,非ペア電話のシーケンスや発話から直接学習する方法について検討する。
2段階の反復フレームワークを設計します。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、ジェネレータの出力からトレーニングするために別のHMMモデルが導入され、パフォーマンスが向上し、次のイテレーションにより良いセグメンテーションが提供される。
実験では,まずモデル設計の異なる選択について検討する。
次に、フレームワークと異なるタイプのベースラインを比較します。
(i)監督方法
(ii)音響単位発見に基づく方法
(iii)非ペアデータから学習する方法。
提案手法は,ティミットデータセットに基づく非ペアデータから学習する全ての音響単位発見法や従来手法よりも一貫して優れた性能を示す。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - From Modular to End-to-End Speaker Diarization [3.079020586262228]
本稿では、VBxとして知られるxベクトル(ニューラルネットワークで得られた話者埋め込み)をクラスタリングするために使用されるベイズ隠れマルコフモデルに基づくシステムについて述べる。
本稿では,話者の旋回や重なり合いの観点から,実際の会話に類似した合成データを生成する手法について述べる。
本稿では,この「模擬会話」生成手法が,一般的なEENDのトレーニングにおいて,従来提案されていた「模擬混合」生成方法よりも優れた性能を実現する方法を示す。
論文 参考訳(メタデータ) (2024-06-27T15:09:39Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by
Connecting Foundation Models [14.538853403226751]
基礎モデル(FM)の上に人工知能システムを構築することは、AI研究の新たなパラダイムになりつつある。
本稿では,基礎モデル,特にCLIP,CLAP,AudioLDMを活用することで,この問題に対する軽量な解決策を提案する。
提案手法では,V2A-Mapperを高速に訓練し,高忠実で視覚的に整合した音を生成する。
論文 参考訳(メタデータ) (2023-08-18T04:49:38Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Data Augmentation based Consistency Contrastive Pre-training for
Automatic Speech Recognition [18.303072203996347]
自動音声認識(ASR)タスクにおいて、自己教師付き音響事前学習は驚くべき結果を得た。
音響事前学習法の多くは、コントラスト学習を用いて音響表現を学習する。
本稿では,音声事前学習のためのデータ拡張を利用して,新しいコントラスト学習法(CCL)を設計する。
論文 参考訳(メタデータ) (2021-12-23T13:23:17Z) - Active Restoration of Lost Audio Signals Using Machine Learning and
Latent Information [0.7252027234425334]
本稿では, ステガノグラフィー, ハーフトニング(ディザリング), 最先端の浅層・深層学習法の組み合わせを提案する。
本研究では,信号対雑音比(SNR),目標差次数(ODG),およびハンセンの音質測定値を用いて,塗装性能の向上を示す。
論文 参考訳(メタデータ) (2021-11-21T20:11:33Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Hybrid Model and Data Driven Algorithm for Online Learning of Any-to-Any
Path Loss Maps [19.963385352536616]
デバイス・ツー・アズ・ア・パス・ロス・マップの学習は、デバイス・トゥ・ア・ア・ア・システム(D2D)通信に依存するアプリケーションにとって重要な実現手段となるかもしれない。
モデルに基づく手法は、計算量が少なくて信頼性の高い推定を生成できるという利点がある。
純粋なデータ駆動手法は、物理的なモデルを仮定することなく、優れたパフォーマンスを達成することができる。
本稿では,オンライン手法を用いてデータセットを抽出するハイブリッドモデルとデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2021-07-14T13:08:25Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。