論文の概要: The University of Edinburgh's Submission to the WMT22 Code-Mixing Shared
Task (MixMT)
- arxiv url: http://arxiv.org/abs/2210.11309v1
- Date: Thu, 20 Oct 2022 14:40:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:31:43.895974
- Title: The University of Edinburgh's Submission to the WMT22 Code-Mixing Shared
Task (MixMT)
- Title(参考訳): wmt22 code-mixing shared task (mixmt) へのエディンバラ大学の提案
- Authors: Faheem Kirefu, Vivek Iyer, Pinzhen Chen and Laurie Burchell
- Abstract要約: エディンバラ大学はWMT22のコードミックス翻訳作業に参加した。
これは2つのサブタスクで構成されている: コードミックスされたヒンディー語/英語(ヒングリッシュ語)のテキスト生成を並列ヒンディー語と英語の文から生成し、ii)機械翻訳をヒングリッシュ語から英語に翻訳する。
どちらのサブタスクも、全体的なパフォーマンスの高いサブタスクのひとつです。
- 参考スコア(独自算出の注目度): 2.9681323891560303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The University of Edinburgh participated in the WMT22 shared task on
code-mixed translation. This consists of two subtasks: i) generating code-mixed
Hindi/English (Hinglish) text generation from parallel Hindi and English
sentences and ii) machine translation from Hinglish to English. As both
subtasks are considered low-resource, we focused our efforts on careful data
generation and curation, especially the use of backtranslation from monolingual
resources. For subtask 1 we explored the effects of constrained decoding on
English and transliterated subwords in order to produce Hinglish. For subtask
2, we investigated different pretraining techniques, namely comparing simple
initialisation from existing machine translation models and aligned
augmentation. For both subtasks, we found that our baseline systems worked
best. Our systems for both subtasks were one of the overall top-performing
submissions.
- Abstract(参考訳): エディンバラ大学は、コード混合翻訳に関するwmt22共有タスクに参加した。
これは2つのサブタスクから成ります。
一 平行ヒンディー語及び英語文からコード混合ヒンディー語/英語(ヒンディー語)テキストを生成すること、及び
二 ヒングリッシュ語から英語への機械翻訳
どちらのサブタスクも低リソースとみなされるため、注意深いデータ生成とキュレーション、特に単言語リソースからのバックトランスレーションの利用に重点を置いています。
subtask 1では、hinglishを生成するために、制約付きデコードが英語と翻訳されたサブワードに与える影響を調査した。
サブタスク2では,既存の機械翻訳モデルからの単純な初期化とアライメントの強化など,さまざまな事前学習手法を調査した。
両方のサブタスクでは、ベースラインシステムが最善であることがわかった。
両方のサブタスク用の私たちのシステムは、全体的なトップパフォーマンスな提案の1つでした。
関連論文リスト
- GenAI Content Detection Task 1: English and Multilingual Machine-Generated Text Detection: AI vs. Human [71.42669028683741]
我々は,Coling 2025におけるGenAIワークショップの一環として,バイナリマシン生成テキスト検出における共有タスクを提案する。
このタスクは、モノリンガル(英: Monolingual)とマルチリンガル(英: Multilingual)の2つのサブタスクから構成される。
本稿では,データの包括的概要,結果の概要,参加システムの詳細な説明,提出内容の詳細な分析について述べる。
論文 参考訳(メタデータ) (2025-01-19T11:11:55Z) - Findings of the WMT 2022 Shared Task on Translation Suggestion [63.457874930232926]
We report the results of the first edition of the WMT shared task on Translation Suggestion。
このタスクは、機械翻訳(MT)によって生成された文書全体に対して、特定の単語やフレーズの代替手段を提供することを目的としている。
2つのサブタスク、すなわち単純翻訳提案と暗示付き翻訳提案で構成されている。
論文 参考訳(メタデータ) (2022-11-30T03:48:36Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Gui at MixMT 2022 : English-Hinglish: An MT approach for translation of
code mixed data [13.187116325089951]
私たちは英語+ヒンディー語、ヒングリッシュ語、ヒングリッシュ語の両方で同じことを試みています。
我々の知る限り、私たちはモノリンガルからコードミクシング機械翻訳の最初のタスクにおいて、ROUGE-LとWERの上位スコアの1つを達成しました。
論文 参考訳(メタデータ) (2022-10-21T19:48:18Z) - Synergy with Translation Artifacts for Training and Inference in
Multilingual Tasks [11.871523410051527]
本稿では,両翻訳を同時に組み合わせることで,多言語文分類タスクにおける結果の相乗化が可能であることを示す。
本研究では,SupCon と MixUp を併用した言語間微調整アルゴリズム MUSC を提案する。
論文 参考訳(メタデータ) (2022-10-18T04:55:24Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Investigating Code-Mixed Modern Standard Arabic-Egyptian to English
Machine Translation [6.021269454707625]
コード混在の現代標準アラビア語とエジプト・アラビア語(MSAEA)を英語に調査する。
我々は、(i)標準のエンドツーエンドシーケンス・ツー・シーケンス(S2S)変換器と(ii)事前訓練されたS2S言語モデル(LM)を用いて、異なる条件下でモデルを開発する。
我々は、スクラッチから訓練されたS2Sモデルと様々なアラビア方言のデータに基づいて微調整されたLMを用いて、MSA-EN並列データのみを用いて、合理的な性能を得ることができる。
論文 参考訳(メタデータ) (2021-05-28T03:38:35Z) - Exploring Text-to-Text Transformers for English to Hinglish Machine
Translation with Synthetic Code-Mixing [19.19256927651015]
モノリンガル英語のテキストをHinglish(コード混合ヒンディー語と英語)に変換するモデルを記述する。
事前訓練された言語モデルの最近の成功を踏まえ、トランスフォーマーベースのエンコーダデコーダモデルの実用性についても検証する。
私たちのモデルは、英語と英語の公式共有タスクの全体的なランキングで第一位です。
論文 参考訳(メタデータ) (2021-05-18T19:50:25Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。