論文の概要: Domain-Specific Text Generation for Machine Translation
- arxiv url: http://arxiv.org/abs/2208.05909v1
- Date: Thu, 11 Aug 2022 16:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:12:49.262301
- Title: Domain-Specific Text Generation for Machine Translation
- Title(参考訳): 機械翻訳のためのドメイン特化テキスト生成
- Authors: Yasmin Moslem, Rejwanul Haque, John D. Kelleher, Andy Way
- Abstract要約: ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
- 参考スコア(独自算出の注目度): 7.803471587734353
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Preservation of domain knowledge from the source to target is crucial in any
translation workflow. It is common in the translation industry to receive
highly specialized projects, where there is hardly any parallel in-domain data.
In such scenarios where there is insufficient in-domain data to fine-tune
Machine Translation (MT) models, producing translations that are consistent
with the relevant context is challenging. In this work, we propose a novel
approach to domain adaptation leveraging state-of-the-art pretrained language
models (LMs) for domain-specific data augmentation for MT, simulating the
domain characteristics of either (a) a small bilingual dataset, or (b) the
monolingual source text to be translated. Combining this idea with
back-translation, we can generate huge amounts of synthetic bilingual in-domain
data for both use cases. For our investigation, we use the state-of-the-art
Transformer architecture. We employ mixed fine-tuning to train models that
significantly improve translation of in-domain texts. More specifically, in
both scenarios, our proposed methods achieve improvements of approximately 5-6
BLEU and 2-3 BLEU, respectively, on the Arabic-to-English and English-to-Arabic
language pairs. Furthermore, the outcome of human evaluation corroborates the
automatic evaluation results.
- Abstract(参考訳): 翻訳ワークフローでは、ソースからターゲットへのドメイン知識の保存が重要です。
翻訳業界では、ドメイン内データの並列性がほとんどない高度に専門的なプロジェクトを受けるのが一般的である。
微調整機械翻訳(mt)モデルに対するドメイン内データ不足のシナリオでは、関連する文脈に整合した翻訳を生成するのは困難である。
本研究では,mtのドメイン特化データ拡張のための最先端事前学習言語モデル(lms)を活用したドメイン適応手法を提案し,そのドメイン特性をシミュレーションする。
(a)小型のバイリンガルデータセット、又は
(b)翻訳すべき単言語源文。
このアイデアとバックトランスレーションを組み合わせることで、両方のユースケースで膨大な量の合成バイリンガルインドメインデータを生成することができる。
調査には最先端のTransformerアーキテクチャを使用します。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いる。
具体的には、アラビア語と英語とアラビア語の組み合わせで、それぞれ約5-6 BLEUと2-3 BLEUの改善を実現している。
さらに、人的評価の結果は、自動評価結果の裏付けとなる。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Language Modelling Approaches to Adaptive Machine Translation [0.0]
一貫性は高品質な翻訳の鍵となる要件である。
ドメイン内のデータの不足は、翻訳設定でよく見られる。
推論時間における適応型MTの品質向上には,言語モデルが有効か?
論文 参考訳(メタデータ) (2024-01-25T23:02:54Z) - Exploiting Language Relatedness in Machine Translation Through Domain
Adaptation Techniques [3.257358540764261]
文のスケール化類似度スコアを,特に5グラムのKenLM言語モデルに基づく関連言語に適用する手法を提案する。
提案手法は, マルチドメインアプローチでは2 BLEU点, NMTでは3 BLEU点, 反復的バックトランスレーションアプローチでは2 BLEU点の増加に成功している。
論文 参考訳(メタデータ) (2023-03-03T09:07:30Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Domain Adaptation of NMT models for English-Hindi Machine Translation
Task at AdapMT ICON 2020 [2.572404739180802]
本稿では,adapmt共有タスクアイコン2020で提示された英語ヒンディー語のニューラルマシン翻訳システムについて述べる。
我々のチームは化学・一般分野のEn-Hi翻訳タスクで第1位、AI分野のEn-Hi翻訳タスクで第2位にランクインした。
論文 参考訳(メタデータ) (2020-12-22T15:46:40Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。