論文の概要: Soft Language Identification for Language-Agnostic Many-to-One End-to-End Speech Translation
- arxiv url: http://arxiv.org/abs/2406.10276v1
- Date: Wed, 12 Jun 2024 00:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:21:32.621848
- Title: Soft Language Identification for Language-Agnostic Many-to-One End-to-End Speech Translation
- Title(参考訳): 言語に依存しない多対一音声翻訳のためのソフト言語同定
- Authors: Peidong Wang, Jian Xue, Jinyu Li, Junkun Chen, Aswin Shanmugam Subramanian,
- Abstract要約: 多くのエンドツーエンドの音声翻訳モデルは、異なるソース言語からの音声信号をターゲット言語でテキストに変換することができる。
場合によっては、入力言語を付与または推定することができる。
我々は、単純で効果的な線形入力ネットワークを導入することで、これを実現する。
- 参考スコア(独自算出の注目度): 40.0365339798752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-agnostic many-to-one end-to-end speech translation models can convert audio signals from different source languages into text in a target language. These models do not need source language identification, which improves user experience. In some cases, the input language can be given or estimated. Our goal is to use this additional language information while preserving the quality of the other languages. We accomplish this by introducing a simple and effective linear input network. The linear input network is initialized as an identity matrix, which ensures that the model can perform as well as, or better than, the original model. Experimental results show that the proposed method can successfully enhance the specified language, while keeping the language-agnostic ability of the many-to-one ST models.
- Abstract(参考訳): 言語に依存しない多対一の多対一音声翻訳モデルは、異なるソース言語からの音声信号をターゲット言語でテキストに変換することができる。
これらのモデルはソースコードの識別を必要としないため、ユーザーエクスペリエンスが向上する。
場合によっては、入力言語を付与または推定することができる。
私たちのゴールは、他の言語の品質を維持しながら、この追加の言語情報を使用することです。
我々は、単純で効果的な線形入力ネットワークを導入することで、これを実現する。
線形入力ネットワークはID行列として初期化され、モデルが元のモデルと同等かそれ以上に動作可能であることを保証する。
実験結果から,提案手法は多対一のSTモデルの言語非依存性を保ちながら,特定言語を効果的に拡張できることが示唆された。
関連論文リスト
- Streaming Bilingual End-to-End ASR model using Attention over Multiple
Softmax [6.386371634323785]
本稿では,両言語を単一のニューラルモデルで認識可能な,バイリンガル・エンド・ツー・エンド(E2E)モデリング手法を提案する。
提案モデルでは,自己認識機構によって結合された言語固有のジョイントネットワークを用いて,エンコーダと予測ネットワークを共有する。
論文 参考訳(メタデータ) (2024-01-22T01:44:42Z) - Robust Open-Set Spoken Language Identification and the CU MultiLang
Dataset [2.048226951354646]
オープンセット音声言語識別システムは、入力が元の言語を示さないことを検出できる。
我々は,MFCCとピッチ特徴を用いたオープンセット音声言語識別のための新しい手法を実装した。
我々は、訓練された言語で91.76%の精度を達成し、未知の言語に適応する能力を有する音声言語識別システムを提案する。
論文 参考訳(メタデータ) (2023-08-29T00:44:27Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - A language score based output selection method for multilingual speech
recognition [2.294014185517203]
対象言語に対する全ての候補を生成するために,言語モデル再構成手法を適用する。
入力言語の識別子モデルや言語仕様を使わずに出力を自動的に選択する単純なスコアを提案する。
さらに,ベトナム語における英語の借用語の精度向上のためのソリューションとして,言語間話者の問題に対処する英語とベトナム語をエンド・ツー・エンドに設計する。
論文 参考訳(メタデータ) (2020-05-02T15:07:14Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。