論文の概要: A Hierarchical Model for Spoken Language Recognition
- arxiv url: http://arxiv.org/abs/2201.01364v1
- Date: Tue, 4 Jan 2022 22:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-06 14:16:58.376364
- Title: A Hierarchical Model for Spoken Language Recognition
- Title(参考訳): 音声言語認識のための階層モデル
- Authors: Luciana Ferrer, Diego Castan, Mitchell McLaren, Aaron Lawson
- Abstract要約: 音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 29.948719321162883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language recognition (SLR) refers to the automatic process used to
determine the language present in a speech sample. SLR is an important task in
its own right, for example, as a tool to analyze or categorize large amounts of
multi-lingual data. Further, it is also an essential tool for selecting
downstream applications in a work flow, for example, to chose appropriate
speech recognition or machine translation models. SLR systems are usually
composed of two stages, one where an embedding representing the audio sample is
extracted and a second one which computes the final scores for each language.
In this work, we approach the SLR task as a detection problem and implement the
second stage as a probabilistic linear discriminant analysis (PLDA) model. We
show that discriminative training of the PLDA parameters gives large gains with
respect to the usual generative training. Further, we propose a novel
hierarchical approach were two PLDA models are trained, one to generate scores
for clusters of highly related languages and a second one to generate scores
conditional to each cluster. The final language detection scores are computed
as a combination of these two sets of scores. The complete model is trained
discriminatively to optimize a cross-entropy objective. We show that this
hierarchical approach consistently outperforms the non-hierarchical one for
detection of highly related languages, in many cases by large margins. We train
our systems on a collection of datasets including 100 languages and test them
both on matched and mismatched conditions, showing that the gains are robust to
condition mismatch.
- Abstract(参考訳): 音声言語認識(slr)は、音声サンプルに存在する言語を決定するのに使用される自動プロセスを指す。
SLRは、例えば大量の多言語データを分析または分類するためのツールとして、それ自体が重要なタスクである。
さらに、例えば適切な音声認識や機械翻訳モデルを選択する作業フローにおいて、下流アプリケーションを選択するための必須のツールでもある。
slrシステムは通常、音声サンプルを表す埋め込みが抽出される2つのステージと、各言語の最終スコアを計算する2つのステージで構成される。
本研究では,SLRタスクを検出問題としてアプローチし,確率線形判別分析(PLDA)モデルとして第2段階を実装した。
PLDAパラメータの識別訓練は,通常の生成訓練において大きな利益をもたらすことを示す。
さらに,2つのpldaモデルを訓練した新しい階層的アプローチを提案する。1つは高度に関連する言語の集合に対してスコアを生成し,もう1つは各クラスタに条件付きスコアを生成する。
最終言語検出スコアは、これら2つのスコアの組み合わせとして計算される。
完全なモデルは、クロスエントロピー目的を最適化するために差別的に訓練される。
この階層的アプローチは、しばしば大きなマージンによって、高関係言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
100の言語を含むデータセットのコレクションでシステムをトレーニングし、マッチした条件とミスマッチした条件の両方でテストします。
関連論文リスト
- Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。
本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。
提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-19T14:27:21Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Analysis of Predictive Coding Models for Phonemic Representation
Learning in Small Datasets [0.0]
本研究では,音素識別タスクにおける2つの予測符号化モデル,自動回帰予測符号化とコントラスト予測符号化の挙動について検討した。
実験の結果, 自己回帰損失と音素識別スコアとの間には, 強い相関関係が認められた。
CPCモデルは、トレーニングデータを渡した後既に急速に収束しており、平均すると、その表現は両方の言語でのAPCよりも優れています。
論文 参考訳(メタデータ) (2020-07-08T15:46:13Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。