論文の概要: Exploiting Language Relatedness in Machine Translation Through Domain
Adaptation Techniques
- arxiv url: http://arxiv.org/abs/2303.01793v1
- Date: Fri, 3 Mar 2023 09:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 15:44:16.446111
- Title: Exploiting Language Relatedness in Machine Translation Through Domain
Adaptation Techniques
- Title(参考訳): ドメイン適応手法による機械翻訳における言語関連性の爆発
- Authors: Amit Kumar, Rupjyoti Baruah, Ajay Pratap, Mayank Swarnkar and Anil
Kumar Singh
- Abstract要約: 文のスケール化類似度スコアを,特に5グラムのKenLM言語モデルに基づく関連言語に適用する手法を提案する。
提案手法は, マルチドメインアプローチでは2 BLEU点, NMTでは3 BLEU点, 反復的バックトランスレーションアプローチでは2 BLEU点の増加に成功している。
- 参考スコア(独自算出の注目度): 3.257358540764261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the significant challenges of Machine Translation (MT) is the scarcity
of large amounts of data, mainly parallel sentence aligned corpora. If the
evaluation is as rigorous as resource-rich languages, both Neural Machine
Translation (NMT) and Statistical Machine Translation (SMT) can produce good
results with such large amounts of data. However, it is challenging to improve
the quality of MT output for low resource languages, especially in NMT and SMT.
In order to tackle the challenges faced by MT, we present a novel approach of
using a scaled similarity score of sentences, especially for related languages
based on a 5-gram KenLM language model with Kneser-ney smoothing technique for
filtering in-domain data from out-of-domain corpora that boost the translation
quality of MT. Furthermore, we employ other domain adaptation techniques such
as multi-domain, fine-tuning and iterative back-translation approach to compare
our novel approach on the Hindi-Nepali language pair for NMT and SMT. Our
approach succeeds in increasing ~2 BLEU point on multi-domain approach, ~3 BLEU
point on fine-tuning for NMT and ~2 BLEU point on iterative back-translation
approach.
- Abstract(参考訳): 機械翻訳(MT)の重要な課題の1つは、大量のデータ、主に並列文整列コーパスの不足である。
評価が資源に富む言語と同じくらい厳密であれば、ニューラルネットワーク翻訳(NMT)と統計機械翻訳(SMT)の両方が、そのような大量のデータで良い結果を得ることができる。
しかし,低リソース言語,特にNMTやSMTにおけるMT出力の品質向上は困難である。
In order to tackle the challenges faced by MT, we present a novel approach of using a scaled similarity score of sentences, especially for related languages based on a 5-gram KenLM language model with Kneser-ney smoothing technique for filtering in-domain data from out-of-domain corpora that boost the translation quality of MT. Furthermore, we employ other domain adaptation techniques such as multi-domain, fine-tuning and iterative back-translation approach to compare our novel approach on the Hindi-Nepali language pair for NMT and SMT.
提案手法は, 複数領域アプローチにおける ~2 BLEU 点, NMT における ~3 BLEU 点, 反復的バックトランスレーション手法における ~2 BLEU 点の増加に成功している。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Domain Adaptation for Arabic Machine Translation: The Case of Financial
Texts [0.7673339435080445]
金融分野でアラビア英語(AR-EN)翻訳のための並列コーパスを開発する。
我々は、ChatGPT-3.5 Turboを含むいくつかのNMTおよびLarge Languageモデルを微調整する。
ChatGPT翻訳の品質は, 自動評価および人的評価に基づく他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-22T13:37:19Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Towards Reliable Neural Machine Translation with Consistency-Aware
Meta-Learning [24.64700139151659]
現在のニューラル機械翻訳(NMT)システムは信頼性の欠如に悩まされている。
本稿では,モデルに依存しないメタラーニング(MAML)アルゴリズムをベースとした,一貫性を考慮したメタラーニング(CAML)フレームワークを提案する。
我々は、NIST中国語から英語へのタスク、3つのWMT翻訳タスク、TED M2Oタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-03-20T09:41:28Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Neural Machine Translation: Challenges, Progress and Future [62.75523637241876]
機械翻訳(英: Machine translation, MT)は、コンピュータを利用して人間の言語を自動翻訳する技術である。
ニューラルマシン翻訳(NMT)は、ディープニューラルネットワークを用いたソース言語とターゲット言語間の直接マッピングをモデル化する。
この記事では、NMTフレームワークをレビューし、NMTの課題について論じ、最近のエキサイティングな進歩を紹介します。
論文 参考訳(メタデータ) (2020-04-13T07:53:57Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。