論文の概要: CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units
- arxiv url: http://arxiv.org/abs/2407.14295v1
- Date: Fri, 19 Jul 2024 13:26:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 17:24:54.194924
- Title: CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units
- Title(参考訳): CoVoSwitch: イントネーション単位に基づく合成コード変換テキストの機械翻訳
- Authors: Yeeun Kang,
- Abstract要約: コードスイッチングデータをPSSTで検出したインネーションユニットに置き換えて合成する。
我々はM2M-100 418MとNLLB-200 600Mの2つの多言語翻訳モデルのコードスイッチング翻訳性能を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual code-switching research is often hindered by the lack and linguistically biased status of available datasets. To expand language representation, we synthesize code-switching data by replacing intonation units detected through PSST, a speech segmentation model fine-tuned from OpenAI's Whisper, using a speech-to-text translation dataset, CoVoST 2. With our dataset, CoVoSwitch, spanning 13 languages, we evaluate the code-switching translation performance of two multilingual translation models, M2M-100 418M and NLLB-200 600M. We reveal that the inclusion of code-switching units results in higher translation performance than monolingual settings and that models are better at code-switching translation into English than non-English. Further, low-resource languages gain most from integration of code-switched units when translating into English but much less when translating into non-English. Translations into low-resource languages also perform worse than even raw code-switched inputs. We find that systems excel at copying English tokens but struggle with non-English tokens, that the off-target problem in monolingual settings is also relevant in code-switching settings, and that models hallucinate in code-switching translation by introducing words absent in both of the original source sentences. CoVoSwitch and code are available at https://github.com/sophiayk20/covoswitch.
- Abstract(参考訳): 多言語コードスイッチングの研究は、しばしば利用可能なデータセットの欠如と言語的に偏った状態によって妨げられる。
音声からテキストへの変換データセットであるCoVoST 2を用いて、OpenAIのWhisperから微調整された音声セグメント化モデルPSSTで検出されたインネーション単位を置き換えることで、言語表現を拡張するために、コードスイッチングデータを合成する。
13言語にまたがるデータセットであるCoVoSwitchを用いて、M2M-100 418MとNLLB-200 600Mという2つの多言語翻訳モデルのコードスイッチング翻訳性能を評価する。
コードスイッチング・ユニットを組み込むことでモノリンガル・セッティングよりも高い翻訳性能が得られ、非英語よりもコードスイッチング・ユニットを英語に翻訳する方が優れたモデルであることが判明した。
さらに、低リソース言語は、英語に翻訳する際にコードスイッチされたユニットを統合することで、最も多くを得るが、非英語に翻訳する場合はずっと少ない。
低リソース言語への翻訳は、生のコード変更入力よりもパフォーマンスが悪くなります。
我々は,英語のトークンを複写することに長けているが,非英語のトークンに苦しむシステムや,モノリンガル設定におけるオフターゲット問題もコードスイッチング設定に関係していること,および原文の両文に欠落した単語を導入して,コードスイッチング翻訳に幻覚を与えるモデルがあることを見出した。
CoVoSwitchとコードはhttps://github.com/sophiayk20/covoswitch.comで入手できる。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。
本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:58:11Z) - The Effect of Alignment Objectives on Code-Switching Translation [0.0]
我々は、ある言語から別の言語への単言語文の翻訳が可能な単一の機械翻訳モデルを訓練する方法を提案している。
このモデルは、人間の意味でのバイリンガルモデルと見なすことができる。
論文 参考訳(メタデータ) (2023-09-10T14:46:31Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Towards Code-switched Classification Exploiting Constituent Language
Resources [3.655021726150369]
我々は、モノリンガル設定とクロスランガル設定の両方を利用するために、コード切替データを構成言語に変換する。
我々は,英語とヒンディー語における2つの下流タスク,サルカズム検出とヘイトスピーチ検出の実験を行った。
論文 参考訳(メタデータ) (2020-11-03T18:43:19Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。