論文の概要: Adam Mickiewicz University at WMT 2022: NER-Assisted and Quality-Aware
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2209.02962v1
- Date: Wed, 7 Sep 2022 07:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:25:52.863260
- Title: Adam Mickiewicz University at WMT 2022: NER-Assisted and Quality-Aware
Neural Machine Translation
- Title(参考訳): Adam Mickiewicz University at WMT 2022: NER-Assisted and Quality-Aware Neural Machine Translation
- Authors: Artur Nowakowski and Gabriela Pa{\l}ka and Kamil Guttmann and
Miko{\l}aj Pokrywka
- Abstract要約: 本稿では,WMT 2022 General MT Taskの制約トラックに対するAdam Mickiewicz University(AMU)の提出について述べる。
システムはトランスフォーマー(大きな)アーキテクチャに基づく4つのモデルの重み付けアンサンブルである。
自動評価結果によると,本システムは両翻訳の順にランクインする。
- 参考スコア(独自算出の注目度): 0.045880283710344076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Adam Mickiewicz University's (AMU) submissions to the
constrained track of the WMT 2022 General MT Task. We participated in the
Ukrainian $\leftrightarrow$ Czech translation directions. The systems are a
weighted ensemble of four models based on the Transformer (big) architecture.
The models use source factors to utilize the information about named entities
present in the input. Each of the models in the ensemble was trained using only
the data provided by the shared task organizers. A noisy back-translation
technique was used to augment the training corpora. One of the models in the
ensemble is a document-level model, trained on parallel and synthetic longer
sequences. During the sentence-level decoding process, the ensemble generated
the n-best list. The n-best list was merged with the n-best list generated by a
single document-level model which translated multiple sentences at a time.
Finally, existing quality estimation models and minimum Bayes risk decoding
were used to rerank the n-best list so that the best hypothesis was chosen
according to the COMET evaluation metric. According to the automatic evaluation
results, our systems rank first in both translation directions.
- Abstract(参考訳): 本稿では,WMT 2022 General MT Taskの制約トラックに対するAdam Mickiewicz University(AMU)の提出について述べる。
ウクライナの$\leftrightarrow$ Czechの翻訳コースに参加しました。
システムはトランスフォーマー(big)アーキテクチャに基づいた4つのモデルの重み付けアンサンブルである。
モデルはソースファクタを使用して、入力に存在する名前付きエンティティに関する情報を利用する。
アンサンブル内の各モデルは、共有タスクオーガナイザが提供するデータのみを使用してトレーニングされた。
トレーニングコーパスを増強するためにノイズのあるバックトランスレーション技術が用いられた。
アンサンブルのモデルのひとつがドキュメントレベルのモデルで、並列と合成の長いシーケンスでトレーニングされている。
文レベルの復号処理の間、アンサンブルはn-bestリストを生成する。
n-bestリストは、一度に複数の文を翻訳する単一の文書レベルモデルによって生成されたn-bestリストとマージされた。
最後に、既存の品質推定モデルと最小ベイズリスクデコードを用いてn-ベストリストをランク付けし、彗星評価基準に基づいて最良の仮説が選択された。
自動評価結果によると,本システムは両翻訳の順にランクインする。
関連論文リスト
- Choose the Final Translation from NMT and LLM hypotheses Using MBR Decoding: HW-TSC's Submission to the WMT24 General MT Shared Task [9.819139035652137]
本稿では,Huawei Translate Services Center(HW-TSC)をWMT24汎用機械翻訳(MT)共有タスクに提出する。
我々は、正規化ドロップアウト、双方向トレーニング、データ多様化、前方翻訳、後方翻訳、交互学習、カリキュラム学習、トランスダクティブアンサンブル学習などのトレーニング戦略を用いて、ニューラルマシン翻訳(NMT)モデルをトレーニングする。
論文 参考訳(メタデータ) (2024-09-23T08:25:37Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - Quality-Aware Decoding for Neural Machine Translation [64.24934199944875]
ニューラルネットワーク翻訳(NMT)のための品質認識復号法を提案する。
参照フリーおよび参照ベースMT評価における最近のブレークスルーを,様々な推論手法を用いて活用する。
品質認識復号化は、最先端の自動測定値と人的評価値の両方で、MAPベースの復号化を一貫して上回ります。
論文 参考訳(メタデータ) (2022-05-02T15:26:28Z) - Data Selection Curriculum for Neural Machine Translation [31.55953464971441]
NMTモデルのための2段階のカリキュラムトレーニングフレームワークを提案する。
我々は、事前学習法とオンラインスコアを用いた決定論的スコアリングの両方によって選択されたデータのサブセットに基づいてベースNMTモデルを微調整する。
我々のカリキュラム戦略は、常により良い品質(+2.2BLEUの改善)とより高速な収束を示すことを示した。
論文 参考訳(メタデータ) (2022-03-25T19:08:30Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Automatic Machine Translation Evaluation in Many Languages via Zero-Shot
Paraphrasing [11.564158965143418]
我々は,機械翻訳評価の課題を,シーケンス・ツー・シーケンス・パラフレーズを用いたスコアリング機械翻訳出力の1つとして捉えた。
我々は,パラフレーズ処理をゼロショット翻訳タスクとして扱う多言語NMTシステムとして,パラフレーズを訓練することを提案する。
我々の手法は単純で直感的で、訓練には人間の判断を必要としない。
論文 参考訳(メタデータ) (2020-04-30T03:32:34Z) - Capturing document context inside sentence-level neural machine
translation models with self-training [5.129814362802968]
文書レベルのニューラルマシン翻訳は、文レベルの翻訳よりもあまり注目されず、遅れを取っている。
本稿では,並列文書レベルのコーパス上で,特殊なモデルを訓練する必要のない手法を提案する。
我々のアプローチは、モデルによる選択を強化するため、文書内の他の文で同じ選択がされる可能性が高くなる。
論文 参考訳(メタデータ) (2020-03-11T12:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。