論文の概要: Machine Translation in the Covid domain: an English-Irish case study for
LoResMT 2021
- arxiv url: http://arxiv.org/abs/2403.01196v1
- Date: Sat, 2 Mar 2024 12:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 14:47:53.491690
- Title: Machine Translation in the Covid domain: an English-Irish case study for
LoResMT 2021
- Title(参考訳): Covidドメインにおける機械翻訳:LoResMT 2021の英アイルランドケーススタディ
- Authors: S\'eamus Lankford, Haithem Afli and Andy Way
- Abstract要約: 翻訳総局からのコビッド適応55kコーパスを用いたドメイン適応手法を適用した。
微調整、混合微調整、組み合わせデータセットアプローチは、拡張されたドメイン内のデータセットでトレーニングされたモデルと比較した。
本研究では,わずか5k行で8kのドメイン内ベースラインデータセットを拡張することでBLEUスコアが27ポイント向上することが実証された。
- 参考スコア(独自算出の注目度): 2.648836772989769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translation models for the specific domain of translating Covid data from
English to Irish were developed for the LoResMT 2021 shared task. Domain
adaptation techniques, using a Covid-adapted generic 55k corpus from the
Directorate General of Translation, were applied. Fine-tuning, mixed
fine-tuning and combined dataset approaches were compared with models trained
on an extended in-domain dataset. As part of this study, an English-Irish
dataset of Covid related data, from the Health and Education domains, was
developed. The highest-performing model used a Transformer architecture trained
with an extended in-domain Covid dataset. In the context of this study, we have
demonstrated that extending an 8k in-domain baseline dataset by just 5k lines
improved the BLEU score by 27 points.
- Abstract(参考訳): 英語からアイルランド語に翻訳する特定の領域の翻訳モデルはLoResMT 2021の共有タスクのために開発された。
翻訳総局からのコビッド適応55kコーパスを用いたドメイン適応手法を適用した。
拡張したドメイン内データセットでトレーニングされたモデルと比較して,微調整,混合微調整,複合データセットアプローチを比較した。
この研究の一環として、保健・教育分野のcovid-19関連データの英語-アイルランド語データセットが開発された。
最高のパフォーマンスモデルは、拡張されたドメイン内のCovidデータセットでトレーニングされたTransformerアーキテクチャを使用した。
本研究では,わずか5k行で8kのドメイン内ベースラインデータセットを拡張することでBLEUスコアが27ポイント向上したことを示す。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - On the Impact of Cross-Domain Data on German Language Models [20.758967185444416]
高品質なデータを含むことを目的とした別のデータセットとともに、5つのドメインのテキストからなるドイツのデータセットを提案する。
両方のデータセット上で122Mから750Mパラメータの一連のモデルをトレーニングすることにより、複数の下流タスクに関する包括的なベンチマークを行う。
この結果から、クロスドメインデータセットでトレーニングされたモデルは、品質データだけでトレーニングされたモデルよりも優れており、前回の最先端データよりも最大4.45%の改善が達成された。
論文 参考訳(メタデータ) (2023-10-11T09:09:55Z) - Domain Adaptation of Machine Translation with Crowdworkers [34.29644521425858]
本稿では,クラウドワーカーの助けを借りて,Webから対象ドメインの並列文を効率的に収集するフレームワークを提案する。
収集した並列データにより、マシン翻訳モデルをターゲット領域に迅速に適応させることができる。
実験の結果,提案手法は数日間にわたって,適切なコストで目標領域の並列データを収集できることがわかった。
論文 参考訳(メタデータ) (2022-10-28T03:11:17Z) - Improving Retrieval Augmented Neural Machine Translation by Controlling
Source and Fuzzy-Match Interactions [15.845071122977158]
本稿では,トップkのドメイン内ファジィマッチングが元文に現れるRAT(Retrieval Augmented Translation)のアイデアに基づいて構築する。
本稿では,ソース文とトップkファジィなターゲット言語マッチング間のインタラクションを制御する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-10T23:33:15Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - Structured Domain Adaptation with Online Relation Regularization for
Unsupervised Person Re-ID [62.90727103061876]
Unsupervised Domain adapt(UDA)は、ラベル付きソースドメインデータセットでトレーニングされたモデルを、ラベルなしのターゲットドメインデータセットに適応させることを目的としている。
本稿では,オンライン関係整合性正規化項を用いたエンドツーエンドなドメイン適応フレームワークを提案する。
提案手法は,複数のUDAタスクにおける人物再IDの最先端性能を実現することを目的としている。
論文 参考訳(メタデータ) (2020-03-14T14:45:18Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。