論文の概要: Can You Traducir This? Machine Translation for Code-Switched Input
- arxiv url: http://arxiv.org/abs/2105.04846v1
- Date: Tue, 11 May 2021 08:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 13:59:51.179853
- Title: Can You Traducir This? Machine Translation for Code-Switched Input
- Title(参考訳): あなたはこれをトラデューサーできますか。
コード変換入力のための機械翻訳
- Authors: Jitao Xu (TLP), Fran\c{c}ois Yvon (TLP)
- Abstract要約: コードスイッチ(CSW)は、多言語の地理的または社会的文脈で発生する一般的な現象です。
ここでは、CSWテキストの機械翻訳(MT)に焦点を当て、同時に2つの混合言語を解き放つことを目指しています。
実験では、このトレーニング戦略は、コード交換テキストの多言語システムを超えるMTシステムをもたらします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-Switching (CSW) is a common phenomenon that occurs in multilingual
geographic or social contexts, which raises challenging problems for natural
language processing tools. We focus here on Machine Translation (MT) of CSW
texts, where we aim to simultaneously disentangle and translate the two mixed
languages. Due to the lack of actual translated CSW data, we generate
artificial training data from regular parallel texts. Experiments show this
training strategy yields MT systems that surpass multilingual systems for
code-switched texts. These results are confirmed in an alternative task aimed
at providing contextual translations for a L2 writing assistant.
- Abstract(参考訳): コードスイッチング(英: Code-Switching, CSW)は、自然言語処理ツールにおいて困難な問題を引き起こす多言語的地理的文脈や社会的文脈において発生する一般的な現象である。
ここではcswテキストの機械翻訳(mt)に焦点をあて、2つの混合言語を同時に分離して翻訳することを目指している。
実際のCSWデータがないため、通常の並列テキストから人工的なトレーニングデータを生成する。
実験により、このトレーニング戦略は、コード切替テキストの多言語システムを超えるMTシステムをもたらすことが示された。
これらの結果は、L2書き込みアシスタントのための文脈翻訳の提供を目的とした代替タスクで確認される。
関連論文リスト
- TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Code-Mixed Probes Show How Pre-Trained Models Generalise On Code-Switched Text [1.9185059111021852]
事前学習された言語モデルが3次元のコードスイッチトテキストをどのように扱うかを検討する。
その結果,事前学習した言語モデルは,コードスイッチトテキストへの一般化に有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-07T19:46:03Z) - The Effect of Alignment Objectives on Code-Switching Translation [0.0]
我々は、ある言語から別の言語への単言語文の翻訳が可能な単一の機械翻訳モデルを訓練する方法を提案している。
このモデルは、人間の意味でのバイリンガルモデルと見なすことができる。
論文 参考訳(メタデータ) (2023-09-10T14:46:31Z) - Learning Domain Specific Language Models for Automatic Speech
Recognition through Machine Translation [0.0]
我々は、タスク固有のテキストデータの翻訳を最初に取得するために、中間ステップとしてNeural Machine Translationを使用します。
我々はNMTビームサーチグラフから単語混乱ネットワークを導出する手法を開発した。
NMT混在ネットワークは、n-gramと繰り返しニューラルネットワークLMの両方の難易度を低減するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-21T10:29:20Z) - Investigating Code-Mixed Modern Standard Arabic-Egyptian to English
Machine Translation [6.021269454707625]
コード混在の現代標準アラビア語とエジプト・アラビア語(MSAEA)を英語に調査する。
我々は、(i)標準のエンドツーエンドシーケンス・ツー・シーケンス(S2S)変換器と(ii)事前訓練されたS2S言語モデル(LM)を用いて、異なる条件下でモデルを開発する。
我々は、スクラッチから訓練されたS2Sモデルと様々なアラビア方言のデータに基づいて微調整されたLMを用いて、MSA-EN並列データのみを用いて、合理的な性能を得ることができる。
論文 参考訳(メタデータ) (2021-05-28T03:38:35Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation
Challenge Tasks at IWSLT 2020 [25.024259342365934]
ON-TRACコンソーシアムは、フランスの3つの学術研究所の研究者で構成されている。
学習したエンドツーエンドのアテンションベースエンコーダデコーダモデルを用いて、オフライン音声翻訳トラックへの提案を行った。
同時音声翻訳トラックでは,テキスト・トゥ・テキスト・サブタスクのための Transformer ベースのwait-k モデルを構築している。
論文 参考訳(メタデータ) (2020-05-24T23:44:45Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z) - Learning Coupled Policies for Simultaneous Machine Translation using
Imitation Learning [85.70547744787]
本稿では,プログラマ-解釈ポリシーを併用した同時翻訳モデルを効率よく学習する手法を提案する。
6つの言語対の実験により,翻訳品質の点で,本手法は高いベースラインを達成できた。
論文 参考訳(メタデータ) (2020-02-11T10:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。