論文の概要: Attentive Temporal Pooling for Conformer-based Streaming Language
Identification in Long-form Speech
- arxiv url: http://arxiv.org/abs/2202.12163v1
- Date: Thu, 24 Feb 2022 16:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:27:48.374622
- Title: Attentive Temporal Pooling for Conformer-based Streaming Language
Identification in Long-form Speech
- Title(参考訳): 長文音声におけるコンフォーメータ型ストリーミング言語識別のための注意時間プール
- Authors: Quan Wang, Yang Yu, Jason Pelecanos, Yiling Huang, Ignacio Lopez
Moreno
- Abstract要約: コンホメータ層に基づく新しい言語識別システムを提案する。
本稿では,長期音声における情報伝達を可能にするため,注意的時間プーリング機構を提案する。
また、既存の言語識別モデルを新しいドメインに適応させるためのシンプルなドメイン適応機構も導入する。
- 参考スコア(独自算出の注目度): 10.99810382164059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel language identification system based on
conformer layers. We propose an attentive temporal pooling mechanism to allow
the model to carry information in long-form audio via a recurrent form, such
that the inference can be performed in a streaming fashion. Additionally, a
simple domain adaptation mechanism is introduced to allow adapting an existing
language identification model to a new domain where the prior language
distribution is different. We perform a comparative study of different model
topologies under different constraints of model size, and find that
conformer-base models outperform LSTM and transformer based models. Our
experiments also show that attentive temporal pooling and domain adaptation
significantly improve the model accuracy.
- Abstract(参考訳): 本稿では,適合層に基づく新しい言語識別システムを提案する。
本稿では,モデルがリカレント形式を介して長音の情報を伝達し,推論をストリーミング形式で行えるようにするための,注意深い時間的プーリング機構を提案する。
さらに、従来の言語分布が異なる新しいドメインに既存の言語識別モデルを適用するためのシンプルなドメイン適応機構も導入されている。
モデルサイズの異なる制約下で異なるモデルトポロジの比較研究を行い、コンホメータベースモデルの方がLSTMやトランスフォーマーベースモデルより優れていることを示す。
また,本実験により,注意時間プーリングと領域適応がモデル精度を著しく向上することを示した。
関連論文リスト
- LLMTemporalComparator: A Tool for Analysing Differences in Temporal Adaptations of Large Language Models [17.021220773165016]
本研究では、異なる期間のデータに基づいて訓練された大規模言語モデル(LLM)における時間的不一致を分析することの課題に対処する。
本稿では,ユーザ定義クエリに基づく2つのLLMバージョンの出力を体系的に比較するシステムを提案する。
論文 参考訳(メタデータ) (2024-10-05T15:17:07Z) - Word-wise intonation model for cross-language TTS systems [0.0]
提案手法は,自動データマークアップとテキスト音声合成システムへの応用に適している。
キーとなるアイデアは、単語中の強勢音節の異なる配置と結びついた変動性の部分的除去である。
提案モデルは,テキストから音声への韻律記述のツールとして,あるいはバックボーンとして使用することができる。
論文 参考訳(メタデータ) (2024-09-30T15:09:42Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Understanding Domain Learning in Language Models Through Subpopulation
Analysis [35.16003054930906]
現代のニューラルネットワークアーキテクチャにおいて、異なるドメインがどのようにコード化されているかを調べる。
我々は、自然言語領域、モデルサイズ、使用したトレーニングデータ量との関係を分析する。
論文 参考訳(メタデータ) (2022-10-22T21:12:57Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network [0.0]
RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。
本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
論文 参考訳(メタデータ) (2021-04-22T15:21:41Z) - Coarse-to-Fine Memory Matching for Joint Retrieval and Classification [0.7081604594416339]
共同検索と分類のための新しいエンドツーエンド言語モデルを提案する。
FEVERファクト検証データセットの標準ブラインドテストセットで評価する。
我々は、モデルを分析・制約するためのこの設定に、模範監査を拡張します。
論文 参考訳(メタデータ) (2020-11-29T05:06:03Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。