論文の概要: Domain Adaptation of Machine Translation with Crowdworkers
- arxiv url: http://arxiv.org/abs/2210.15861v1
- Date: Fri, 28 Oct 2022 03:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:56:32.947542
- Title: Domain Adaptation of Machine Translation with Crowdworkers
- Title(参考訳): クラウドワーカーによる機械翻訳のドメイン適応
- Authors: Makoto Morishita, Jun Suzuki, Masaaki Nagata
- Abstract要約: 本稿では,クラウドワーカーの助けを借りて,Webから対象ドメインの並列文を効率的に収集するフレームワークを提案する。
収集した並列データにより、マシン翻訳モデルをターゲット領域に迅速に適応させることができる。
実験の結果,提案手法は数日間にわたって,適切なコストで目標領域の並列データを収集できることがわかった。
- 参考スコア(独自算出の注目度): 34.29644521425858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although a machine translation model trained with a large in-domain parallel
corpus achieves remarkable results, it still works poorly when no in-domain
data are available. This situation restricts the applicability of machine
translation when the target domain's data are limited. However, there is great
demand for high-quality domain-specific machine translation models for many
domains. We propose a framework that efficiently and effectively collects
parallel sentences in a target domain from the web with the help of
crowdworkers. With the collected parallel data, we can quickly adapt a machine
translation model to the target domain. Our experiments show that the proposed
method can collect target-domain parallel data over a few days at a reasonable
cost. We tested it with five domains, and the domain-adapted model improved the
BLEU scores to +19.7 by an average of +7.8 points compared to a general-purpose
translation model.
- Abstract(参考訳): 大きなドメイン内並列コーパスでトレーニングされた機械翻訳モデルは驚くべき結果を得るが、ドメイン内データがない場合でもうまく機能しない。
この状況は、ターゲットドメインのデータに制限がある場合、機械翻訳の適用性を制限する。
しかし、多くのドメインに対して高品質なドメイン固有機械翻訳モデルが要求される。
本稿では,クラウドワーカーの助けを借りて,Webから対象ドメインの並列文を効率的に効率的に収集するフレームワークを提案する。
収集した並列データにより、マシン翻訳モデルをターゲット領域に迅速に適応させることができる。
提案手法は,数日間にわたって適切なコストで対象領域の並列データを収集できることを示す。
我々は5つのドメインでテストを行い、ドメイン適応モデルは汎用翻訳モデルと比較してBLEUのスコアを+19.7まで平均+7.8ポイント改善した。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - Efficient Hierarchical Domain Adaptation for Pretrained Language Models [77.02962815423658]
生成言語モデルは、多種多様な一般的なドメインコーパスに基づいて訓練される。
計算効率のよいアダプタアプローチを用いて,ドメイン適応を多種多様なドメインに拡張する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:09:29Z) - Selecting Parallel In-domain Sentences for Neural Machine Translation
Using Monolingual Texts [0.0]
本稿では,機械翻訳作業のための汎用ドメイン(並列テキスト)コーパスからドメイン内データを選択する手法を提案する。
提案手法は,単言語ドメイン固有のデータセットと相似性に応じて,並列汎用ドメインデータ中の文をランク付けする。
次に、最も類似度の高い上位K文を選択して、特定のドメイン内データに合わせて調整された新しい機械翻訳システムを訓練する。
論文 参考訳(メタデータ) (2021-12-11T23:29:26Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Rapid Domain Adaptation for Machine Translation with Monolingual Data [31.70276147485463]
機械翻訳の課題の1つは、新型コロナウイルス(COVID-19)のような急激なイベントに直面して、目に見えない領域に迅速に適応する方法だ。
本稿では、教師なし翻訳の観点から、素早いドメイン適応を可能にするアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-23T20:31:37Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - Addressing Zero-Resource Domains Using Document-Level Context in Neural
Machine Translation [80.40677540516616]
ドメイン内の並列データが利用できない場合、文書レベルのコンテキストへのアクセスにより、ドメインの一般性をよりよくキャプチャできることを示す。
文書レベルのトランスフォーマーモデルとして,大きなコンテキストサイズを利用できる2つのモデルを提案する。
論文 参考訳(メタデータ) (2020-04-30T16:28:19Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。