Fugu-MT 論文翻訳(概要): Lingua Custodia's participation at the WMT 2021 Machine Translation using Terminologies shared task

論文の概要: Lingua Custodia's participation at the WMT 2021 Machine Translation using Terminologies shared task

arxiv url: http://arxiv.org/abs/2111.02120v1
Date: Wed, 3 Nov 2021 10:36:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-04 19:27:04.501816
Title: Lingua Custodia's participation at the WMT 2021 Machine Translation using Terminologies shared task
Title（参考訳）: 用語共有タスクを用いたwmt 2021機械翻訳におけるlingua custodiaの参加
Authors: Melissa Ailem, Jinghsu Liu, Raheel Qader
Abstract要約: 私たちは英語からフランス語、ロシア語、中国語の3つの方向を考えます。専門用語を扱うための標準手順に2つの大きな変更を加えます。本手法は,翻訳品質を維持しつつ,ほとんどの用語制約を満たす。
参考スコア（独自算出の注目度）: 3.3108924994485096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper describes Lingua Custodia's submission to the WMT21 shared task on machine translation using terminologies. We consider three directions, namely English to French, Russian, and Chinese. We rely on a Transformer-based architecture as a building block, and we explore a method which introduces two main changes to the standard procedure to handle terminologies. The first one consists in augmenting the training data in such a way as to encourage the model to learn a copy behavior when it encounters terminology constraint terms. The second change is constraint token masking, whose purpose is to ease copy behavior learning and to improve model generalization. Empirical results show that our method satisfies most terminology constraints while maintaining high translation quality.
Abstract（参考訳）: 本稿では,lingua custodiaの wmt21 shared task on machine translation using terminologiesについて述べる。我々は英語からフランス語、ロシア語、中国語の3つの方向を考える。本稿では,トランスフォーマーをベースとしたアーキテクチャをビルディングブロックとして利用し,用語処理の標準手順に2つの大きな変更を加える手法を提案する。 1つ目は、モデルが用語制約項に遭遇したときのコピーの振る舞いを学習するよう促すように、トレーニングデータを増強することである。 2つ目の変更は制約トークンマスキングで、その目的はコピー動作学習の容易化とモデルの一般化の改善である。その結果,高い翻訳品質を維持しつつ,ほとんどの用語制約を満たすことがわかった。

関連論文リスト

Team ACK at SemEval-2025 Task 2: Beyond Word-for-Word Machine Translation for English-Korean Pairs [23.19401079530962]
英語と韓国語の間で知識に富んだ、エンティティに富んだテキストを翻訳するには、言語固有の、文化的なニュアンスを保存するためのトランスクリエーションが必要である。自動計測とバイリンガルアノテータによる人的評価を用いて13のモデル(LLMとMTモデル)を評価する。
論文参考訳（メタデータ） (2025-04-29T05:58:19Z)
Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation [0.0]
本稿では,専門分野におけるコミュニケーションの明確化に不可欠である専門用語を正確に翻訳することの課題に対処する。本研究は, ペアレンテティカル・ターミノロジー・トランスフォーメーション (PTT) タスクを導入し, ペアレンテティカル・ターミノロジー・トランスフォーメーション(PTT)タスクの翻訳とともに, ペアレンテティカル・ターミノロジー・トランスフォーメーション(Parenthetical Terminology Translation, PTT)タスクを導入した。そこで我々は,単語の全体的な翻訳精度と正しい括弧表現の両方を評価するための新しい評価指標を開発した。
論文参考訳（メタデータ） (2024-10-01T13:40:28Z)
Domain Terminology Integration into Machine Translation: Leveraging Large Language Models [3.178046741931973]
本稿では,WMT 2023 におけるドイツ語-英語(DE-EN),英語-チェコ語(EN-CS),中国語-英語(ZH-EN)言語対に対する提案手法について述べる。この課題は、技術用語を正確に翻訳するシステムを開発するために参加者に挑戦することで機械翻訳(MT)を進めることを目的としている。
論文参考訳（メタデータ） (2023-10-22T23:25:28Z)
Terminology-Aware Translation with Constrained Decoding and Large Language Model Prompting [11.264272119913311]
我々は、WMT 2023用語翻訳タスクを提出する。私たちは、ドメインに依存しない、最小限の手作業を必要とするトランスレーション-then-refineアプローチを採用しています。その結果,我々の用語認識モデルは,効率的に用語を組み込むことができることがわかった。
論文参考訳（メタデータ） (2023-10-09T16:08:23Z)
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。我々の手法は文の埋め込みを大幅に改善できる。
論文参考訳（メタデータ） (2023-05-16T03:53:30Z)
Modeling Target-Side Morphology in Neural Machine Translation: A Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文参考訳（メタデータ） (2022-03-25T10:13:20Z)
DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文参考訳（メタデータ） (2021-11-14T17:28:09Z)
CUNI systems for WMT21: Terminology translation Shared Task [0.0]
本研究の目的は、提供された用語データベースに基づいて特定の用語を翻訳するシステムを設計することである。提案手法は,入力文とともに所望の翻訳を提供し,提案した用語を使用するようにモデルを訓練することに基づいている。トレーニング中も推論中も用語を補足し、モデルが単語の表面形状を正しく生成する方法を学習できるようにする。
論文参考訳（メタデータ） (2021-09-20T08:05:39Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)
Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。 RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文参考訳（メタデータ） (2020-03-30T21:35:09Z)
Learning Coupled Policies for Simultaneous Machine Translation using Imitation Learning [85.70547744787]
本稿では,プログラマ-解釈ポリシーを併用した同時翻訳モデルを効率よく学習する手法を提案する。 6つの言語対の実験により,翻訳品質の点で,本手法は高いベースラインを達成できた。
論文参考訳（メタデータ） (2020-02-11T10:56:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。