論文の概要: FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation
- arxiv url: http://arxiv.org/abs/2012.15717v1
- Date: Thu, 31 Dec 2020 17:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:12:01.859459
- Title: FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation
- Title(参考訳): FDMT: 機械翻訳におけるきめ細かいドメイン適応のためのベンチマークデータセット
- Authors: Wenhao Zhu, Shujian Huang, Tong Pu, Xu Zhang, Jian Yu, Wei Chen,
Yanfeng Wang and Jiajun Chen
- Abstract要約: 機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
- 参考スコア(独自算出の注目度): 53.87731008029645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous domain adaptation research usually neglect the diversity in
translation within a same domain, which is a core problem for adapting a
general neural machine translation (NMT) model into a specific domain in
real-world scenarios. One representative of such challenging scenarios is to
deploy a translation system for a conference with a specific topic, e.g.
computer networks or natural language processing, where there is usually
extremely less resources due to the limited time schedule. To motivate a wide
investigation in such settings, we present a real-world fine-grained domain
adaptation task in machine translation (FDMT). The FDMT dataset (Zh-En)
consists of four sub-domains of information technology: autonomous vehicles, AI
education, real-time networks and smart phone. To be closer to reality, FDMT
does not employ any in-domain bilingual training data. Instead, each sub-domain
is equipped with monolingual data, bilingual dictionary and knowledge base, to
encourage in-depth exploration of these available resources. Corresponding
development set and test set are provided for evaluation purpose. We make
quantitative experiments and deep analyses in this new setting, which
benchmarks the fine-grained domain adaptation task and reveals several
challenging problems that need to be addressed.
- Abstract(参考訳): 従来のドメイン適応研究は、通常同じドメイン内の翻訳の多様性を無視する。これは、現実世界のシナリオにおいて、汎用ニューラルマシン翻訳(nmt)モデルを特定のドメインに適応させる上での核となる問題である。
このような難しいシナリオの1つは、特定のトピックを持つカンファレンスの翻訳システムをデプロイすることである。
コンピュータネットワークや自然言語処理では、時間スケジュールに制限があるため、リソースが極端に少ない。
このような環境下での広範な研究を動機づけるために,機械翻訳(FDMT)におけるドメイン適応タスクを現実世界で実施する。
FDMTデータセット(Zh-En)は、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
現実に近づくために、FDMTはドメイン内のバイリンガルトレーニングデータを使用しない。
その代わり、各サブドメインはモノリンガルデータ、バイリンガル辞書、知識ベースを備えており、これらのリソースの詳細な探索を奨励している。
評価目的に対応する開発セットおよびテストセットを提供する。
我々は,ドメイン適応タスクのきめ細かいベンチマークを行い,対処すべき課題をいくつか明らかにする,この新たな設定における定量的実験と詳細な分析を行う。
関連論文リスト
- DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding [41.49771026674969]
本稿では,ドメイン一般化ポイントクラウド理解のための統一モデルにおいて,複数のドメインと複数のタスクを扱う,新しい,実用的なマルチドメインマルチタスク設定を提案する。
我々のDG-PICは、テスト中にモデル更新を一切必要とせず、見えないドメインと複数のタスク、例えば、ポイントクラウドの再構築、デノナイズ、登録を1つの統一モデルで処理できる。
論文 参考訳(メタデータ) (2024-07-11T18:21:40Z) - A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。
我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。
AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文 参考訳(メタデータ) (2024-06-14T09:52:27Z) - Language Modelling Approaches to Adaptive Machine Translation [0.0]
一貫性は高品質な翻訳の鍵となる要件である。
ドメイン内のデータの不足は、翻訳設定でよく見られる。
推論時間における適応型MTの品質向上には,言語モデルが有効か?
論文 参考訳(メタデータ) (2024-01-25T23:02:54Z) - Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards
Enhancing Text Spotting Performance [15.513912470752041]
様々な領域への適応能力は、実環境にデプロイする際のシーンテキストスポッティングモデルに不可欠である。
本稿では,ドメイン適応型シーンテキストスポッティングの問題,すなわちマルチドメインソースデータを用いたモデルトレーニングについて検討する。
その結果,複数の領域にまたがるテキストスポッティングベンチマークにおいて,中間表現が有意な性能を発揮する可能性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-02T06:08:01Z) - $m^4Adapter$: Multilingual Multi-Domain Adaptation for Machine
Translation with a Meta-Adapter [128.69723410769586]
多言語ニューラルネットワーク翻訳モデル(MNMT)は、ドメインと言語ペアのデータに基づいて評価すると、最先端の性能が得られる。
ドメインシフトや新しい言語ペアへの変換にMNMTモデルを使用すると、パフォーマンスが劇的に低下する。
我々はメタラーニングとアダプタを用いたドメイン知識と言語知識を組み合わせた$m4Adapter$を提案する。
論文 参考訳(メタデータ) (2022-10-21T12:25:05Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Rapid Domain Adaptation for Machine Translation with Monolingual Data [31.70276147485463]
機械翻訳の課題の1つは、新型コロナウイルス(COVID-19)のような急激なイベントに直面して、目に見えない領域に迅速に適応する方法だ。
本稿では、教師なし翻訳の観点から、素早いドメイン適応を可能にするアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-23T20:31:37Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。