論文の概要: Cross-lingual neural fuzzy matching for exploiting target-language
monolingual corpora in computer-aided translation
- arxiv url: http://arxiv.org/abs/2401.08374v1
- Date: Tue, 16 Jan 2024 14:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:02:52.336917
- Title: Cross-lingual neural fuzzy matching for exploiting target-language
monolingual corpora in computer-aided translation
- Title(参考訳): コンピュータ翻訳におけるターゲット言語単言語コーパスを利用した言語間ニューラルネットワークファジィマッチング
- Authors: Miquel Espl\`a-Gomis, V\'ictor M. S\'anchez-Cartagena, Juan Antonio
P\'erez-Ortiz, Felipe S\'anchez-Mart\'inez
- Abstract要約: 本稿では,ドメイン内ターゲット言語(TL)モノリンガルコーパスの活用を目的とした,新しいニューラルアプローチを提案する。
本手法は,TL単言語コーパスから翻訳提案を検索するための言語間文の埋め込みと,後処理を推定するためのニューラルモデルに頼っている。
本稿では,これらの手法を4つの言語ペア上で自動評価することにより,TMベースのCAT環境におけるモノリンガルテキストの活用に成功していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-aided translation (CAT) tools based on translation memories (MT)
play a prominent role in the translation workflow of professional translators.
However, the reduced availability of in-domain TMs, as compared to in-domain
monolingual corpora, limits its adoption for a number of translation tasks. In
this paper, we introduce a novel neural approach aimed at overcoming this
limitation by exploiting not only TMs, but also in-domain target-language (TL)
monolingual corpora, and still enabling a similar functionality to that offered
by conventional TM-based CAT tools. Our approach relies on cross-lingual
sentence embeddings to retrieve translation proposals from TL monolingual
corpora, and on a neural model to estimate their post-editing effort. The paper
presents an automatic evaluation of these techniques on four language pairs
that shows that our approach can successfully exploit monolingual texts in a
TM-based CAT environment, increasing the amount of useful translation
proposals, and that our neural model for estimating the post-editing effort
enables the combination of translation proposals obtained from monolingual
corpora and from TMs in the usual way. A human evaluation performed on a single
language pair confirms the results of the automatic evaluation and seems to
indicate that the translation proposals retrieved with our approach are more
useful than what the automatic evaluation shows.
- Abstract(参考訳): 翻訳記憶(MT)に基づくコンピュータ支援翻訳(CAT)ツールが,プロ翻訳者の翻訳ワークフローにおいて重要な役割を果たしている。
しかし、ドメイン内の単言語コーパスと比較して、ドメイン内のTMの可用性が低下すると、多くの翻訳タスクへの導入が制限される。
本稿では、TMだけでなく、ドメイン内ターゲット言語(TL)モノリンガルコーパスも活用し、従来のTMベースのCATツールと同様の機能を実現することにより、この制限を克服することを目的とした新しいニューラルネットワーク手法を提案する。
本手法は,TL単言語コーパスから翻訳提案を検索するための言語間文の埋め込みと,後処理を推定するためのニューラルモデルに依存する。
本稿では,これらの手法を4つの言語ペアで自動評価することにより,TMベースのCAT環境におけるモノリンガルテキストの活用に成功し,有用な翻訳提案量の増大を図り,翻訳後の作業推定のためのニューラルモデルにより,モノリンガルコーパスとTMからの翻訳提案を通常の方法で組み合わせることができることを示す。
単一言語対で行った人間評価は,自動評価の結果を確認し,本手法で得られた翻訳提案が,自動評価の結果よりも有用であることを示すと考えられる。
関連論文リスト
- BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。