論文の概要: SIGTYP 2021 Shared Task: Robust Spoken Language Identification
- arxiv url: http://arxiv.org/abs/2106.03895v1
- Date: Mon, 7 Jun 2021 18:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:44:13.588446
- Title: SIGTYP 2021 Shared Task: Robust Spoken Language Identification
- Title(参考訳): SIGTYP 2021 Shared Task: Robust Spoken Language Identification
- Authors: Elizabeth Salesky, Badr M. Abdullah, Sabrina J. Mielke, Elena
Klyachko, Oleg Serikov, Edoardo Ponti, Ritesh Kumar, Ryan Cotterell,
Ekaterina Vylomova
- Abstract要約: 多くの低リソースおよび絶滅危惧言語は、望まれるアプリケーションシナリオと異なるドメインを持つことができる。
今年の音声言語識別に関する共通課題は、このシナリオだけを調査することであった。
ドメインと話者のミスマッチは、95%以上の精度でドメイン内で実行できる現在の手法にとって非常に困難である。
- 参考スコア(独自算出の注目度): 33.517587041976356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While language identification is a fundamental speech and language processing
task, for many languages and language families it remains a challenging task.
For many low-resource and endangered languages this is in part due to resource
availability: where larger datasets exist, they may be single-speaker or have
different domains than desired application scenarios, demanding a need for
domain and speaker-invariant language identification systems. This year's
shared task on robust spoken language identification sought to investigate just
this scenario: systems were to be trained on largely single-speaker speech from
one domain, but evaluated on data in other domains recorded from speakers under
different recording circumstances, mimicking realistic low-resource scenarios.
We see that domain and speaker mismatch proves very challenging for current
methods which can perform above 95% accuracy in-domain, which domain adaptation
can address to some degree, but that these conditions merit further
investigation to make spoken language identification accessible in many
scenarios.
- Abstract(参考訳): 言語識別は基本的な言語と言語処理のタスクであるが、多くの言語や言語ファミリーにとっては難しい課題である。
より大きなデータセットが存在する場合、それらは望まれるアプリケーションシナリオと異なるドメインを持ち、ドメインおよび話者不変言語識別システムの必要性を要求される。
システムは1つのドメインから主に単一話者の音声で訓練されるが、異なる記録状況下で話者から記録された他のドメインのデータに基づいて評価され、現実的な低リソースシナリオを模倣する。
ドメインと話者のミスマッチは、ドメイン内で95%以上の精度で処理できる現在の手法では、ドメイン適応がある程度対処できるが、これらの条件は、多くのシナリオで音声言語を識別できるようにするためのさらなる調査に有効である。
関連論文リスト
- Multilingual acoustic word embeddings for zero-resource languages [1.5229257192293204]
音響単語埋め込み (AWE) - 可変重み付き音声セグメントの固定次元表現。
この研究は、ゼロリソース言語上の既存のAWEモデルを上回る、新しいニューラルネットワークを導入している。
AWEは、スワヒリ放送におけるヘイトスピーチ検出のためのキーワードスポッティングシステムに適用される。
論文 参考訳(メタデータ) (2024-01-19T08:02:37Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Model Adaptation for ASR in low-resource Indian Languages [28.02064068964355]
近年,wav2vec2のような自己教師付き学習(SSL)ベースの音響モデルとWhisperのような大規模多言語学習によって,音声認識(ASR)の性能が大幅に向上している。
オーディオとテキストの両方の可用性が制限されている低リソース言語には、依然として大きな課題があります。
ここで多くの適応と微調整のテクニックが適用され、十分なリソースを持つ類似言語を利用することで、データの低リソースの性質を克服できるのです。
言語における音響データの豊富さによって、大きなテキストのみのコーパスの必要性が軽減される場合もあります。
論文 参考訳(メタデータ) (2023-07-16T05:25:51Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Language ID Prediction from Speech Using Self-Attentive Pooling and
1D-Convolutions [0.0]
このメモは、SIGTYP 2021 Shared Task の言語 ID を音声から予測するための NTR-TSU の提出について説明します。
多くの低リソースおよび絶滅危惧言語では、単一話者記録のみが利用可能であり、ドメインおよび話者不変の言語IDシステムを必要とする。
本研究では,セルフアテンシブプール層を有する畳み込みニューラルネットワークが,言語識別タスクの有望な結果を示すことを示した。
論文 参考訳(メタデータ) (2021-04-24T16:41:17Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Multi-Staged Cross-Lingual Acoustic Model Adaption for Robust Speech
Recognition in Real-World Applications -- A Case Study on German Oral History
Interviews [21.47857960919014]
本稿では,言語横断的,多段階的手法により,対象領域へのロバストな音響モデル適応を実現する手法を提案する。
我々のアプローチは、同じ言語と他の言語の両方で、他のドメインからの大規模なトレーニングデータの利用を可能にします。
論文 参考訳(メタデータ) (2020-05-26T08:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。