論文の概要: Domain Adaptation for Arabic Machine Translation: The Case of Financial
Texts
- arxiv url: http://arxiv.org/abs/2309.12863v1
- Date: Fri, 22 Sep 2023 13:37:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 14:32:08.895342
- Title: Domain Adaptation for Arabic Machine Translation: The Case of Financial
Texts
- Title(参考訳): アラビア語機械翻訳のためのドメイン適応:財務文書の場合
- Authors: Emad A. Alghamdi, Jezia Zakraoui, Fares A. Abanmy
- Abstract要約: 金融分野でアラビア英語(AR-EN)翻訳のための並列コーパスを開発する。
我々は、ChatGPT-3.5 Turboを含むいくつかのNMTおよびLarge Languageモデルを微調整する。
ChatGPT翻訳の品質は, 自動評価および人的評価に基づく他のモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.7673339435080445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural machine translation (NMT) has shown impressive performance when
trained on large-scale corpora. However, generic NMT systems have demonstrated
poor performance on out-of-domain translation. To mitigate this issue, several
domain adaptation methods have recently been proposed which often lead to
better translation quality than genetic NMT systems. While there has been some
continuous progress in NMT for English and other European languages, domain
adaption in Arabic has received little attention in the literature. The current
study, therefore, aims to explore the effectiveness of domain-specific
adaptation for Arabic MT (AMT), in yet unexplored domain, financial news
articles. To this end, we developed carefully a parallel corpus for
Arabic-English (AR- EN) translation in the financial domain for benchmarking
different domain adaptation methods. We then fine-tuned several pre-trained NMT
and Large Language models including ChatGPT-3.5 Turbo on our dataset. The
results showed that the fine-tuning is successful using just a few well-aligned
in-domain AR-EN segments. The quality of ChatGPT translation was superior than
other models based on automatic and human evaluations. To the best of our
knowledge, this is the first work on fine-tuning ChatGPT towards financial
domain transfer learning. To contribute to research in domain translation, we
made our datasets and fine-tuned models available at
https://huggingface.co/asas-ai/.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)は,大規模コーパスの訓練において,優れた性能を示した。
しかし、汎用NMTシステムはドメイン外翻訳の性能が劣っている。
この問題を軽減するために、遺伝的nmtシステムよりも優れた翻訳品質をもたらすいくつかのドメイン適応法が最近提案されている。
英語や他のヨーロッパ諸言語ではnmtの進歩が続いているが、アラビア語の領域適応は文献にはほとんど注目されていない。
そこで本研究では,アラビア語 MT (AMT) に対するドメイン固有適応の有効性について,未調査領域である金融ニュース記事を用いて検討する。
そこで我々は,異なるドメイン適応手法のベンチマークを行うために,金融分野においてアラビア英語(AR-EN)翻訳のための並列コーパスを慎重に開発した。
その後、データセット上でChatGPT-3.5 Turboを含む、事前訓練されたNMTおよびLarge Languageモデルを微調整した。
これらの結果から,ドメイン内AR-ENセグメントの整合性は良好であった。
ChatGPT翻訳の品質は, 自動評価および人的評価に基づく他のモデルよりも優れていた。
私たちの知る限りでは、これはChatGPTを金融ドメイン移行学習に向けて微調整する最初の試みです。
ドメイン翻訳の研究に貢献するために、データセットと微調整モデルをhttps://huggingface.co/asas-ai/で公開しました。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Exploiting Language Relatedness in Machine Translation Through Domain
Adaptation Techniques [3.257358540764261]
文のスケール化類似度スコアを,特に5グラムのKenLM言語モデルに基づく関連言語に適用する手法を提案する。
提案手法は, マルチドメインアプローチでは2 BLEU点, NMTでは3 BLEU点, 反復的バックトランスレーションアプローチでは2 BLEU点の増加に成功している。
論文 参考訳(メタデータ) (2023-03-03T09:07:30Z) - $m^4Adapter$: Multilingual Multi-Domain Adaptation for Machine
Translation with a Meta-Adapter [128.69723410769586]
多言語ニューラルネットワーク翻訳モデル(MNMT)は、ドメインと言語ペアのデータに基づいて評価すると、最先端の性能が得られる。
ドメインシフトや新しい言語ペアへの変換にMNMTモデルを使用すると、パフォーマンスが劇的に低下する。
我々はメタラーニングとアダプタを用いたドメイン知識と言語知識を組み合わせた$m4Adapter$を提案する。
論文 参考訳(メタデータ) (2022-10-21T12:25:05Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Domain Adaptation and Multi-Domain Adaptation for Neural Machine
Translation: A Survey [9.645196221785694]
ニューラルマシン翻訳(nmt)モデルのドメイン適応に対するロバストなアプローチに注目した。
特に、システムが複数のドメインから文を翻訳する必要がある場合を検討します。
我々はNMT研究の他の分野に対するドメイン適応とマルチドメイン適応技術の利点を強調した。
論文 参考訳(メタデータ) (2021-04-14T16:21:37Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Domain Adaptation of NMT models for English-Hindi Machine Translation
Task at AdapMT ICON 2020 [2.572404739180802]
本稿では,adapmt共有タスクアイコン2020で提示された英語ヒンディー語のニューラルマシン翻訳システムについて述べる。
我々のチームは化学・一般分野のEn-Hi翻訳タスクで第1位、AI分野のEn-Hi翻訳タスクで第2位にランクインした。
論文 参考訳(メタデータ) (2020-12-22T15:46:40Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。