論文の概要: BERT-LID: Leveraging BERT to Improve Spoken Language Identification
- arxiv url: http://arxiv.org/abs/2203.00328v1
- Date: Tue, 1 Mar 2022 10:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:49:27.368018
- Title: BERT-LID: Leveraging BERT to Improve Spoken Language Identification
- Title(参考訳): BERT-LID: BERTを活用して音声言語識別を改善する
- Authors: Yuting Nie, Junhong Zhao, Wei-Qiang Zhang, Jinfeng Bai, Zhongqin Wu
- Abstract要約: 言語識別とは、音声セグメントによって伝達される言語の同一性を自動的に判定するタスクである。
中・長期間の発話において高い精度で言語識別が達成されているにもかかわらず、短い発話のパフォーマンスはまだまだ満足できない。
本稿では,BERTに基づく言語識別システム(BERT-LID)を提案する。
- 参考スコア(独自算出の注目度): 12.179375898668614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language identification is a task of automatically determining the identity
of a language conveyed by a spoken segment. It has a profound impact on the
multilingual interoperability of an intelligent speech system. Despite language
identification attaining high accuracy on medium or long utterances (>3s), the
performance on short utterances (<=1s) is still far from satisfactory. We
propose an effective BERT-based language identification system (BERT-LID) to
improve language identification performance, especially on short-duration
speech segments. To adapt BERT into the LID pipeline, we drop in a conjunction
network prior to BERT to accommodate the frame-level Phonetic
Posteriorgrams(PPG) derived from the frontend phone recognizer and then
fine-tune the conjunction network and BERT pre-trained model together. We
evaluate several variations within this piped framework, including combining
BERT with CNN, LSTM, DPCNN, and RCNN. The experimental results demonstrate that
the best-performing model is RCNN-BERT. Compared with the prior works, our
RCNN-BERT model can improve the accuracy by about 5% on long-segment
identification and 18% on short-segment identification. The outperformance of
our model, especially on the short-segment task, demonstrates the applicability
of our proposed BERT-based approach on language identification.
- Abstract(参考訳): 言語識別は、音声区間によって伝達される言語の識別を自動的に決定するタスクである。
インテリジェントな音声システムの多言語間相互運用性に大きな影響を与える。
中・長発話(>3s)における言語識別の精度は高いものの,短い発話(<=1s)の性能は満足のいくものとはほど遠い。
本稿では,言語識別性能を向上させるための効果的なbert型言語識別システム(bert-lid)を提案する。
LIDパイプラインにBERTを適応させるために、BERTの前に接続ネットワークをドロップして、フロントエンドの電話認識器から派生したフレームレベルのPhontic Posteriorgrams(PPG)を適合させ、接続ネットワークとBERT事前学習モデルの微調整を行う。
我々は,BERTとCNN,LSTM,DPCNN,RCNNを併用するなど,このパイプ化フレームワークの様々なバリエーションを評価する。
実験の結果, RCNN-BERTが最適性能を示した。
従来のRCNN-BERTモデルと比較すると,長期識別では約5%,短期識別では18%の精度で精度が向上する。
私たちのモデルのアウトパフォーマンス、特に短期的なタスクは、提案するbertベースのアプローチが言語識別に適用可能であることを示している。
関連論文リスト
- Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Evaluation of BERT and ALBERT Sentence Embedding Performance on
Downstream NLP Tasks [4.955649816620742]
本稿では,BERT と ALBERT の文埋め込みモデルについて検討する。
我々は、Sentence-BERT (SBERT) と呼ばれるシアムとトリプルトネットワーク構造を持つBERTネットワークを改良し、BERTをALBERTに置き換え、Sentence-ALBERT (SALBERT) を作成する。
論文 参考訳(メタデータ) (2021-01-26T09:14:06Z) - EstBERT: A Pretrained Language-Specific BERT for Estonian [0.3674863913115431]
本稿では,エストニア語のための言語固有BERTモデルであるEstBERTについて述べる。
最近の研究はエストニアのタスクにおける多言語BERTモデルを評価し、ベースラインを上回る結果を得た。
EstBERTに基づくモデルは、6つのタスクのうち5つのタスクにおいて多言語BERTモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-09T21:33:53Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z) - RobBERT: a Dutch RoBERTa-based Language Model [9.797319790710711]
我々はRoBERTaを使ってRobBERTと呼ばれるオランダ語のモデルをトレーニングします。
各種タスクにおけるその性能および微調整データセットサイズの重要性を計測する。
RobBERTは様々なタスクの最先端の結果を改善し、特に小さなデータセットを扱う場合、他のモデルよりもはるかに優れています。
論文 参考訳(メタデータ) (2020-01-17T13:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。