論文の概要: Efficient Spoken Language Recognition via Multilabel Classification
- arxiv url: http://arxiv.org/abs/2306.01945v1
- Date: Fri, 2 Jun 2023 23:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 21:13:23.101520
- Title: Efficient Spoken Language Recognition via Multilabel Classification
- Title(参考訳): マルチラベル分類による音声音声認識
- Authors: Oriol Nieto, Zeyu Jin, Franck Dernoncourt, Justin Salamon
- Abstract要約: 我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
- 参考スコア(独自算出の注目度): 53.662747523872305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken language recognition (SLR) is the task of automatically identifying
the language present in a speech signal. Existing SLR models are either too
computationally expensive or too large to run effectively on devices with
limited resources. For real-world deployment, a model should also gracefully
handle unseen languages outside of the target language set, yet prior work has
focused on closed-set classification where all input languages are known
a-priori. In this paper we address these two limitations: we explore efficient
model architectures for SLR based on convolutional networks, and propose a
multilabel training strategy to handle non-target languages at inference time.
Using the VoxLingua107 dataset, we show that our models obtain competitive
results while being orders of magnitude smaller and faster than current
state-of-the-art methods, and that our multilabel strategy is more robust to
unseen non-target languages compared to multiclass classification.
- Abstract(参考訳): 音声言語認識(SLR)は、音声信号に含まれる言語を自動的に識別するタスクである。
既存のSLRモデルは計算コストがかかりすぎるか、リソースが限られているデバイス上で効率的に動作するには大きすぎる。
実世界のデプロイメントでは、モデルは対象言語以外の未認識の言語を優雅に扱うべきですが、以前の作業ではすべての入力言語がa-prioriとして知られているクローズドセットの分類に重点を置いています。
本稿では,畳み込みネットワークに基づくslrの効率的なモデルアーキテクチャを探索し,非対象言語を推論時に扱うためのマルチラベルトレーニング戦略を提案する。
voxlingua107データセットを用いて,我々のモデルが現在の最先端手法よりも桁違いに小さく高速で競争結果を得るとともに,マルチラベル戦略が非ターゲット言語に対して,マルチクラス分類よりも堅牢であることを示す。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Learning ASR pathways: A sparse multilingual ASR model [31.147484652643282]
ASR経路は、言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルである。
重なり合うサブネットワークにより、共有パラメータは、共同でマルチリンガルトレーニングをすることで、低リソース言語への知識伝達を可能にする。
提案したASR経路は,高密度モデルと言語に依存しないプルーニングモデルの両方より優れ,低リソース言語の性能向上を実現している。
論文 参考訳(メタデータ) (2022-09-13T05:14:08Z) - Adaptive Activation Network For Low Resource Multilingual Speech
Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。
また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。
IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-05-28T04:02:59Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Zero-Shot Dependency Parsing with Worst-Case Aware Automated Curriculum
Learning [5.865807597752895]
我々は、自動カリキュラム学習に依存するマルチタスク学習の手法を採用し、外来言語の性能解析を動的に最適化する。
この手法はゼロショット設定における一様・一様サンプリングよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-03-16T11:33:20Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。