論文の概要: Low-Resource Spoken Language Identification Using Self-Attentive Pooling
and Deep 1D Time-Channel Separable Convolutions
- arxiv url: http://arxiv.org/abs/2106.00052v1
- Date: Mon, 31 May 2021 18:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:33:41.841092
- Title: Low-Resource Spoken Language Identification Using Self-Attentive Pooling
and Deep 1D Time-Channel Separable Convolutions
- Title(参考訳): 自己注意プールと深部1次元時間チャネル分離畳み込みを用いた低リソース音声言語識別
- Authors: Roman Bedyakin, Nikolay Mikhaylovskiy
- Abstract要約: 本稿では,言語識別タスクの低リソース設定において,自己認識型プーリング層を用いた畳み込みニューラルネットワークが有望な結果を示すことを示す。
また、性別、年齢などの他の分類要素が良好に評価されるようにデータセットが十分に多様である場合、LIDシステムの混乱行列が言語類似度測定を担っているという仮説を定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This memo describes NTR/TSU winning submission for Low Resource ASR challenge
at Dialog2021 conference, language identification track.
Spoken Language Identification (LID) is an important step in a multilingual
Automated Speech Recognition (ASR) system pipeline. Traditionally, the ASR task
requires large volumes of labeled data that are unattainable for most of the
world's languages, including most of the languages of Russia. In this memo, we
show that a convolutional neural network with a Self-Attentive Pooling layer
shows promising results in low-resource setting for the language identification
task and set up a SOTA for the Low Resource ASR challenge dataset.
Additionally, we compare the structure of confusion matrices for this and
significantly more diverse VoxForge dataset and state and substantiate the
hypothesis that whenever the dataset is diverse enough so that the other
classification factors, like gender, age etc. are well-averaged, the confusion
matrix for LID system bears the language similarity measure.
- Abstract(参考訳): このメモは、言語識別トラックであるDialog2021カンファレンスで、NTR/TSUがLow Resource ASRチャレンジに応募したことを説明している。
音声言語識別(LID)は多言語自動音声認識(ASR)システムパイプラインにおいて重要なステップである。
伝統的に、ASRタスクは、ロシアのほとんどの言語を含む世界のほとんどの言語では達成不可能な大量のラベル付きデータを必要とする。
本稿では,自己注意プーリング層を有する畳み込みニューラルネットワークが,言語識別タスクの低リソース設定において有望な結果を示し,低リソースasrチャレンジデータセットのためのsomaをセットアップすることを示す。
さらに、これに対する混乱行列の構造と、より多様なVoxForgeデータセットと状態を比較し、データセットが十分に多様性があり、性別、年齢などの他の分類要因を識別できるように、仮説を裏付ける。
LIDシステムの混乱行列は言語類似度の測定値である。
関連論文リスト
- Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - MRN: Multiplexed Routing Network for Incremental Multilingual Text
Recognition [56.408324994409405]
多重ルーティングネットワーク(MRN)は、現在見られる言語ごとに認識器を訓練する。
MRNは、古いデータへの依存を効果的に減らし、破滅的な忘れ物との戦いを改善する。
既存の汎用IL法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-24T06:03:34Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Adaptive Activation Network For Low Resource Multilingual Speech
Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。
また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。
IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-05-28T04:02:59Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Language ID Prediction from Speech Using Self-Attentive Pooling and
1D-Convolutions [0.0]
このメモは、SIGTYP 2021 Shared Task の言語 ID を音声から予測するための NTR-TSU の提出について説明します。
多くの低リソースおよび絶滅危惧言語では、単一話者記録のみが利用可能であり、ドメインおよび話者不変の言語IDシステムを必要とする。
本研究では,セルフアテンシブプール層を有する畳み込みニューラルネットワークが,言語識別タスクの有望な結果を示すことを示した。
論文 参考訳(メタデータ) (2021-04-24T16:41:17Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Adversarial Meta Sampling for Multilingual Low-Resource Speech
Recognition [159.9312272042253]
多言語メタラーニングASR(MML-ASR)を改善するための新しい逆メタサンプリング(AMS)アプローチを開発しています。
AMSは、各ソース言語のタスクサンプリング確率を適応的に決定する。
MML-ASRにAMSを適用すると、2つの多言語データセットの実験結果が大幅にパフォーマンス向上します。
論文 参考訳(メタデータ) (2020-12-22T09:33:14Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。