論文の概要: Domain Terminology Integration into Machine Translation: Leveraging
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.14451v1
- Date: Sun, 22 Oct 2023 23:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 23:42:47.337859
- Title: Domain Terminology Integration into Machine Translation: Leveraging
Large Language Models
- Title(参考訳): 機械翻訳へのドメイン用語の統合: 大きな言語モデルを活用する
- Authors: Yasmin Moslem, Gianfranco Romani, Mahdi Molaei, Rejwanul Haque, John
D. Kelleher, Andy Way
- Abstract要約: 本稿では,WMT 2023 におけるドイツ語-英語(DE-EN),英語-チェコ語(EN-CS),中国語-英語(ZH-EN)言語対に対する提案手法について述べる。
この課題は、技術用語を正確に翻訳するシステムを開発するために参加者に挑戦することで機械翻訳(MT)を進めることを目的としている。
- 参考スコア(独自算出の注目度): 3.178046741931973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper discusses the methods that we used for our submissions to the WMT
2023 Terminology Shared Task for German-to-English (DE-EN), English-to-Czech
(EN-CS), and Chinese-to-English (ZH-EN) language pairs. The task aims to
advance machine translation (MT) by challenging participants to develop systems
that accurately translate technical terms, ultimately enhancing communication
and understanding in specialised domains. To this end, we conduct experiments
that utilise large language models (LLMs) for two purposes: generating
synthetic bilingual terminology-based data, and post-editing translations
generated by an MT model through incorporating pre-approved terms. Our system
employs a four-step process: (i) using an LLM to generate bilingual synthetic
data based on the provided terminology, (ii) fine-tuning a generic
encoder-decoder MT model, with a mix of the terminology-based synthetic data
generated in the first step and a randomly sampled portion of the original
generic training data, (iii) generating translations with the fine-tuned MT
model, and (iv) finally, leveraging an LLM for terminology-constrained
automatic post-editing of the translations that do not include the required
terms. The results demonstrate the effectiveness of our proposed approach in
improving the integration of pre-approved terms into translations. The number
of terms incorporated into the translations of the blind dataset increases from
an average of 36.67% with the generic model to an average of 72.88% by the end
of the process. In other words, successful utilisation of terms nearly doubles
across the three language pairs.
- Abstract(参考訳): 本稿では,WMT 2023 におけるドイツ語-英語(DE-EN),英語-チェコ語(EN-CS),中国語-英語(ZH-EN)言語対に対する提案手法について述べる。
この課題は、技術用語を正確に翻訳し、究極的には専門分野におけるコミュニケーションと理解を強化するシステムを開発するよう、参加者に挑戦することで機械翻訳(MT)を進めることを目的としている。
そこで,本研究では,合成バイリンガル用語に基づくデータ生成と,mtモデルによって生成された後編集翻訳の2つの目的に対して,大言語モデル(llm)を用いた実験を行う。
当社のシステムは4段階のプロセスを採用しています。
i) LLMを用いて提供される用語に基づいてバイリンガル合成データを生成する。
(II) 汎用エンコーダデコーダMTモデルに、第1ステップで生成された用語に基づく合成データと、元の汎用トレーニングデータのランダムなサンプルデータとを混合して微調整する。
(iii)微調整mtモデルによる翻訳の生成、
(iv)最後に、用語を含まない翻訳の語尾制約付き自動後編集にllmを利用する。
その結果,提案手法が事前承認された語句の翻訳への統合を改善する効果が示された。
ブラインドデータセットの翻訳に含まれる用語の数は、一般的なモデルで平均36.67%から、プロセスの終了までに平均72.88%まで増加する。
言い換えれば、成功した用語の使用率は3つの言語ペアのほぼ2倍になる。
関連論文リスト
- Efficient Terminology Integration for LLM-based Translation in Specialized Domains [0.0]
特許、金融、バイオメディカルドメインなどの専門分野において、用語は翻訳に不可欠である。
本稿では,用語翻訳の精度を保ちながら,少ない量のデータで効率的にモデルを訓練する手法を提案する。
この手法は、専門用語を扱うモデルの能力を高め、高品質な翻訳を保証する。
論文 参考訳(メタデータ) (2024-10-21T07:01:25Z) - Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation [0.0]
本稿では,専門分野におけるコミュニケーションの明確化に不可欠である専門用語を正確に翻訳することの課題に対処する。
本研究は, ペアレンテティカル・ターミノロジー・トランスフォーメーション (PTT) タスクを導入し, ペアレンテティカル・ターミノロジー・トランスフォーメーション(PTT)タスクの翻訳とともに, ペアレンテティカル・ターミノロジー・トランスフォーメーション(Parenthetical Terminology Translation, PTT)タスクを導入した。
そこで我々は,単語の全体的な翻訳精度と正しい括弧表現の両方を評価するための新しい評価指標を開発した。
論文 参考訳(メタデータ) (2024-10-01T13:40:28Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Neural Machine Translation with Contrastive Translation Memories [71.86990102704311]
Retrieval-augmented Neural Machine Translationモデルは、多くの翻訳シナリオで成功している。
そこで本論文では,新たに検索拡張NMTを提案し,ソース文と相似なコントラスト検索された翻訳記憶をモデル化する。
訓練段階では、目標文に対する各TMの健全な特徴を学習するために、マルチTMコントラスト学習目標を導入する。
論文 参考訳(メタデータ) (2022-12-06T17:10:17Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - Lingua Custodia's participation at the WMT 2021 Machine Translation
using Terminologies shared task [3.3108924994485096]
私たちは英語からフランス語、ロシア語、中国語の3つの方向を考えます。
専門用語を扱うための標準手順に2つの大きな変更を加えます。
本手法は,翻訳品質を維持しつつ,ほとんどの用語制約を満たす。
論文 参考訳(メタデータ) (2021-11-03T10:36:32Z) - Multilingual Machine Translation Systems from Microsoft for WMT21 Shared
Task [95.06453182273027]
本報告では、大規模多言語機械翻訳におけるWMT21共有タスクのためのMicrosoftの機械翻訳システムについて述べる。
共有タスクへのモデル提出はDeltaLMnotefooturlhttps://aka.ms/deltalmで行われました。
最終提出は自動評価基準で3トラックにランクインした。
論文 参考訳(メタデータ) (2021-11-03T09:16:17Z) - CUNI systems for WMT21: Terminology translation Shared Task [0.0]
本研究の目的は、提供された用語データベースに基づいて特定の用語を翻訳するシステムを設計することである。
提案手法は,入力文とともに所望の翻訳を提供し,提案した用語を使用するようにモデルを訓練することに基づいている。
トレーニング中も推論中も用語を補足し、モデルが単語の表面形状を正しく生成する方法を学習できるようにする。
論文 参考訳(メタデータ) (2021-09-20T08:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。