論文の概要: The Effect of Alignment Objectives on Code-Switching Translation
- arxiv url: http://arxiv.org/abs/2309.05044v1
- Date: Sun, 10 Sep 2023 14:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 14:58:34.587349
- Title: The Effect of Alignment Objectives on Code-Switching Translation
- Title(参考訳): コードスイッチング翻訳におけるアライメント対象の影響
- Authors: Mohamed Anwar
- Abstract要約: 我々は、ある言語から別の言語への単言語文の翻訳が可能な単一の機械翻訳モデルを訓練する方法を提案している。
このモデルは、人間の意味でのバイリンガルモデルと見なすことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the things that need to change when it comes to machine translation is
the models' ability to translate code-switching content, especially with the
rise of social media and user-generated content. In this paper, we are
proposing a way of training a single machine translation model that is able to
translate monolingual sentences from one language to another, along with
translating code-switched sentences to either language. This model can be
considered a bilingual model in the human sense. For better use of parallel
data, we generated synthetic code-switched (CSW) data along with an alignment
loss on the encoder to align representations across languages. Using the WMT14
English-French (En-Fr) dataset, the trained model strongly outperforms
bidirectional baselines on code-switched translation while maintaining quality
for non-code-switched (monolingual) data.
- Abstract(参考訳): 機械翻訳に関して変更が必要なことの1つは、特にソーシャルメディアやユーザー生成コンテンツの台頭によって、コードスイッチングされたコンテンツを翻訳するモデルの能力である。
本稿では,ある言語から別の言語への単言語文の翻訳が可能な単一機械翻訳モデルの学習方法を提案する。
このモデルは、人間の意味でのバイリンガルモデルと見なすことができる。
並列データの利用性を向上させるため,言語間の表現を整合させるエンコーダのアライメント損失とともに,合成符号切り換え(csw)データを生成する。
WMT14の英語/フランス語(En-Fr)データセットを使用して、トレーニングされたモデルは、コード変更なし(モノリンガル)データの品質を維持しながら、コードスイッチ付き翻訳の双方向ベースラインを強く上回る。
関連論文リスト
- CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units [0.0]
コードスイッチングデータをPSSTで検出したインネーションユニットに置き換えて合成する。
我々はM2M-100 418MとNLLB-200 600Mの2つの多言語翻訳モデルのコードスイッチング翻訳性能を評価する。
論文 参考訳(メタデータ) (2024-07-19T13:26:35Z) - Improving Zero-Shot Cross-Lingual Transfer via Progressive Code-Switching [35.27850496374157]
コードスイッチング(Code-switching)は、複数の言語の単語をソース言語テキストに混ぜるデータ拡張スキームである。
そこで本研究では,PCS(Progressive Code-Switching)手法を提案する。
実験により,10言語にまたがる3つのゼロショット言語間移動タスクについて,最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-06-19T09:06:24Z) - Using Machine Translation to Augment Multilingual Classification [0.0]
複数の言語にまたがる分類課題に対して,機械翻訳を用いて多言語モデルを微調整する効果について検討する。
翻訳されたデータは、多言語分類器をチューニングするのに十分な品質であり、この新規な損失技術は、それなしでチューニングされたモデルよりも幾らか改善できることを示す。
論文 参考訳(メタデータ) (2024-05-09T00:31:59Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Using heterogeneity in semi-supervised transcription hypotheses to
improve code-switched speech recognition [6.224255518500385]
モノリンガルデータは、コードスウィッチペア内の1つの言語とより密に一致している可能性があることを示す。
コードスイッチングASRのための半教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-14T18:39:18Z) - Exploring Text-to-Text Transformers for English to Hinglish Machine
Translation with Synthetic Code-Mixing [19.19256927651015]
モノリンガル英語のテキストをHinglish(コード混合ヒンディー語と英語)に変換するモデルを記述する。
事前訓練された言語モデルの最近の成功を踏まえ、トランスフォーマーベースのエンコーダデコーダモデルの実用性についても検証する。
私たちのモデルは、英語と英語の公式共有タスクの全体的なランキングで第一位です。
論文 参考訳(メタデータ) (2021-05-18T19:50:25Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。