論文の概要: Gui at MixMT 2022 : English-Hinglish: An MT approach for translation of
code mixed data
- arxiv url: http://arxiv.org/abs/2210.12215v1
- Date: Fri, 21 Oct 2022 19:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:40:45.834073
- Title: Gui at MixMT 2022 : English-Hinglish: An MT approach for translation of
code mixed data
- Title(参考訳): MixMT 2022におけるGui: コード混合データの翻訳のためのMTアプローチ
- Authors: Akshat Gahoi, Jayant Duneja, Anshul Padhi, Shivam Mangale, Saransh
Rajput, Tanvi Kamble, Dipti Misra Sharma, Vasudeva Varma
- Abstract要約: 私たちは英語+ヒンディー語、ヒングリッシュ語、ヒングリッシュ語の両方で同じことを試みています。
我々の知る限り、私たちはモノリンガルからコードミクシング機械翻訳の最初のタスクにおいて、ROUGE-LとWERの上位スコアの1つを達成しました。
- 参考スコア(独自算出の注目度): 13.187116325089951
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Code-mixed machine translation has become an important task in multilingual
communities and extending the task of machine translation to code mixed data
has become a common task for these languages. In the shared tasks of WMT 2022,
we try to tackle the same for both English + Hindi to Hinglish and Hinglish to
English. The first task dealt with both Roman and Devanagari script as we had
monolingual data in both English and Hindi whereas the second task only had
data in Roman script. To our knowledge, we achieved one of the top ROUGE-L and
WER scores for the first task of Monolingual to Code-Mixed machine translation.
In this paper, we discuss the use of mBART with some special pre-processing and
post-processing (transliteration from Devanagari to Roman) for the first task
in detail and the experiments that we performed for the second task of
translating code-mixed Hinglish to monolingual English.
- Abstract(参考訳): コード混合機械翻訳は多言語コミュニティにおいて重要な課題となり、これらの言語では機械翻訳のタスクをコード混合データに拡張することが一般的な課題となっている。
WMT 2022の共通タスクでは、英語+ヒンディー語、ヒングリッシュ語、ヒングリッシュ語の両方で同じことを試みています。
第1のタスクはローマ文字とデヴァナガリー文字の両方を扱うものであり、第2のタスクはローマ文字のデータしか持っていなかった。
我々の知る限り、私たちはモノリンガルからコードミクシング機械翻訳の最初のタスクにおいて、ROUGE-LとWERの上位スコアの1つを達成しました。
本稿では,mBARTを特別な前処理と後処理(デバナガリからローマ語への翻訳)に使用すること,およびコード混在のヒングリッシュをモノリンガル英語に翻訳する第2のタスクで実施した実験について論じる。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - The University of Edinburgh's Submission to the WMT22 Code-Mixing Shared
Task (MixMT) [2.9681323891560303]
エディンバラ大学はWMT22のコードミックス翻訳作業に参加した。
これは2つのサブタスクで構成されている: コードミックスされたヒンディー語/英語(ヒングリッシュ語)のテキスト生成を並列ヒンディー語と英語の文から生成し、ii)機械翻訳をヒングリッシュ語から英語に翻訳する。
どちらのサブタスクも、全体的なパフォーマンスの高いサブタスクのひとつです。
論文 参考訳(メタデータ) (2022-10-20T14:40:10Z) - BITS Pilani at HinglishEval: Quality Evaluation for Code-Mixed Hinglish
Text Using Transformers [1.181206257787103]
本稿では,システムによって生成されたコードミクシングテキストデータの品質に影響を及ぼす要因を明らかにすることを目的とする。
HinglishEvalタスクでは,多言語BERTを用いて合成文と人文の類似性を求める。
論文 参考訳(メタデータ) (2022-06-17T10:36:50Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - CALCS 2021 Shared Task: Machine Translation for Code-Switched Data [27.28423961505655]
我々は、コード変更によるソーシャルメディアデータの機械翻訳に対処する。
コミュニティ共有タスクを作成します。
監督された設定では、参加者は英語をヒンディー語(英:Hindi- English)に単一方向に翻訳する。
教師なしの設定については、英語とスペイン語(Eng-Spanglish)、英語と現代標準アラビア語(Eng-MSAEA)の2つの言語対を提供する。
論文 参考訳(メタデータ) (2022-02-19T15:39:34Z) - Prabhupadavani: A Code-mixed Speech Translation Data for 25 Languages [12.30099599834466]
Prabhupadavaniは、25言語用の多言語コード混合STデータセットである。
130人以上の話者による94時間のスピーチが含まれており、ターゲット言語の対応するテキストと手動で一致している。
このデータは、コードミキシングされた機械翻訳タスクにも使用できる。
論文 参考訳(メタデータ) (2022-01-27T09:24:36Z) - Investigating Code-Mixed Modern Standard Arabic-Egyptian to English
Machine Translation [6.021269454707625]
コード混在の現代標準アラビア語とエジプト・アラビア語(MSAEA)を英語に調査する。
我々は、(i)標準のエンドツーエンドシーケンス・ツー・シーケンス(S2S)変換器と(ii)事前訓練されたS2S言語モデル(LM)を用いて、異なる条件下でモデルを開発する。
我々は、スクラッチから訓練されたS2Sモデルと様々なアラビア方言のデータに基づいて微調整されたLMを用いて、MSA-EN並列データのみを用いて、合理的な性能を得ることができる。
論文 参考訳(メタデータ) (2021-05-28T03:38:35Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。