論文の概要: Code-switched inspired losses for generic spoken dialog representations
- arxiv url: http://arxiv.org/abs/2108.12465v1
- Date: Fri, 27 Aug 2021 19:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 15:02:30.926683
- Title: Code-switched inspired losses for generic spoken dialog representations
- Title(参考訳): 汎用音声対話表現のためのコードスイッチインスパイアロス
- Authors: Emile Chapuis, Pierre Colombo, Matthieu Labeau, Chloe Clave
- Abstract要約: 多言語音声対話表現の学習に適した事前学習損失を導入する。
これらの損失の目標は、モデルをコード変更言語に公開することだ。
実験の結果、新しいコードの変更による損失は、モノリンガルとマルチリンガルの両方でより良いパフォーマンスを実現することがわかった。
- 参考スコア(独自算出の注目度): 5.73995120847626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken dialog systems need to be able to handle both multiple languages and
multilinguality inside a conversation (\textit{e.g} in case of code-switching).
In this work, we introduce new pretraining losses tailored to learn
multilingual spoken dialog representations. The goal of these losses is to
expose the model to code-switched language. To scale up training, we
automatically build a pretraining corpus composed of multilingual conversations
in five different languages (French, Italian, English, German and Spanish) from
\texttt{OpenSubtitles}, a huge multilingual corpus composed of 24.3G tokens. We
test the generic representations on \texttt{MIAM}, a new benchmark composed of
five dialog act corpora on the same aforementioned languages as well as on two
novel multilingual downstream tasks (\textit{i.e} multilingual mask utterance
retrieval and multilingual inconsistency identification). Our experiments show
that our new code switched-inspired losses achieve a better performance in both
monolingual and multilingual settings.
- Abstract(参考訳): 音声対話システムは、会話内の複数の言語と多言語性の両方を扱える必要がある(コードスイッチの場合、\textit{e})。
本研究では,多言語音声対話表現の学習に適した事前学習損失を提案する。
これらの損失の目標は、モデルをコード変更言語に公開することだ。
トレーニングをスケールアップするために、24.3Gトークンからなる巨大な多言語コーパスである \texttt{OpenSubtitles} から5つの言語(フランス語、イタリア語、英語、ドイツ語、スペイン語)で多言語会話からなる事前学習コーパスを自動構築する。
同じ言語で5つのダイアログアクトコーパスからなる新しいベンチマークである \texttt{miam} でジェネリック表現をテストし、2つの新しい多言語下流タスク(\textit{i.e} multilingual mask utterance search and multilingual inconsistency identification)をテストした。
実験の結果、新しいコードの変更による損失は、単言語と多言語の両方でより良いパフォーマンスを実現することがわかった。
関連論文リスト
- A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。
我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文 参考訳(メタデータ) (2024-10-09T05:30:33Z) - Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment [50.80949663719335]
文埋め込みの言語間アライメントの訓練は、個々の言語の意味空間の最適な単言語構造を歪ませる。
我々は、言語間の負の干渉を避けるために、言語固有の文エンコーダを訓練する。
次に、英語以外のすべてのモノリンガルエンコーダを英語エンコーダにアライメントし、その上にクロスリンガルアライメントアダプタをトレーニングする。
論文 参考訳(メタデータ) (2024-07-20T13:56:39Z) - Fine-Tuned Self-Supervised Speech Representations for Language
Diarization in Multilingual Code-Switched Speech [4.39549503760707]
大規模自己教師型アーキテクチャ(WavLM)から抽出した微調整音声表現を用いた連続多言語ダイアリザを開発した。
南アフリカ語5言語(isiZulu, isiXa, Seswana, Sesotho, English)からなるコード交換コーパスを実験した。
論文 参考訳(メタデータ) (2023-12-15T09:40:41Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Challenges and Considerations with Code-Mixed NLP for Multilingual
Societies [1.6675267471157407]
本稿では,NLP研究の現状,限界,予測可能な落とし穴について論じる。
また,社会福祉のための多言語NLPアプリケーションにおける現在の研究を著しく進めることができる未来的データセット,モデル,ツールも提案する。
論文 参考訳(メタデータ) (2021-06-15T00:53:55Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。