論文の概要: Dynamic Terminology Integration for COVID-19 and other Emerging Domains
- arxiv url: http://arxiv.org/abs/2109.04708v1
- Date: Fri, 10 Sep 2021 07:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 21:53:40.607766
- Title: Dynamic Terminology Integration for COVID-19 and other Emerging Domains
- Title(参考訳): 新型コロナウイルスおよび他の新興ドメインに対する動的ターミノロジー統合
- Authors: Toms Bergmanis and M\=arcis Pinnis
- Abstract要約: 本研究は、Tilde MTシステムにおいて、翻訳時の動的用語統合を可能としたWMT 2021共有タスク:ターミノロジーを用いた機械翻訳の一部である。
当システムでは、EN-FR言語ペアのテストセット上で、システムトレーニング中にドメイン内の情報にアクセスすることなく、最大94%の長期使用精度を達成している。
- 参考スコア(独自算出の注目度): 4.492630871726495
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The majority of language domains require prudent use of terminology to ensure
clarity and adequacy of information conveyed. While the correct use of
terminology for some languages and domains can be achieved by adapting
general-purpose MT systems on large volumes of in-domain parallel data, such
quantities of domain-specific data are seldom available for less-resourced
languages and niche domains. Furthermore, as exemplified by COVID-19 recently,
no domain-specific parallel data is readily available for emerging domains.
However, the gravity of this recent calamity created a high demand for reliable
translation of critical information regarding pandemic and infection
prevention. This work is part of WMT2021 Shared Task: Machine Translation using
Terminologies, where we describe Tilde MT systems that are capable of dynamic
terminology integration at the time of translation. Our systems achieve up to
94% COVID-19 term use accuracy on the test set of the EN-FR language pair
without having access to any form of in-domain information during system
training. We conclude our work with a broader discussion considering the Shared
Task itself and terminology translation in MT.
- Abstract(参考訳): 言語領域の大多数は、伝達される情報の明確さと正確性を保証するために、用語の慎重な使用を必要とする。
いくつかの言語やドメインの用語の正しい使用は、大量のドメイン内並列データに汎用mtシステムを適用することで達成できるが、そのようなドメイン固有のデータは、少ないリソース言語やニッチなドメインではほとんど利用できない。
さらに、近年のcovid-19の例のように、新興ドメインではドメイン固有の並列データが容易に利用できない。
しかし、この最近の災害の重大さは、パンデミックや感染予防に関する重要な情報の信頼できる翻訳への高い需要を生み出した。
この研究は、WMT2021の共有タスク:ターミノロジーを用いた機械翻訳の一部であり、翻訳時に動的用語統合が可能なTilde MTシステムを記述する。
我々のシステムは、システムトレーニング中にドメイン内情報にアクセスすることなく、en-fr言語ペアのテストセットで最大94%のcovid-19期間使用精度を達成しています。
我々は、mtにおけるタスクの共有と用語の翻訳について、より広い議論で締めくくった。
関連論文リスト
- Efficient Terminology Integration for LLM-based Translation in Specialized Domains [0.0]
特許、金融、バイオメディカルドメインなどの専門分野において、用語は翻訳に不可欠である。
本稿では,用語翻訳の精度を保ちながら,少ない量のデータで効率的にモデルを訓練する手法を提案する。
この手法は、専門用語を扱うモデルの能力を高め、高品質な翻訳を保証する。
論文 参考訳(メタデータ) (2024-10-21T07:01:25Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Fine-tuning Large Language Models for Domain-specific Machine
Translation [8.439661191792897]
大規模言語モデル(LLM)は機械翻訳(MT)において大きな進歩を遂げた。
しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。
本稿では,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:24:15Z) - Language Modelling Approaches to Adaptive Machine Translation [0.0]
一貫性は高品質な翻訳の鍵となる要件である。
ドメイン内のデータの不足は、翻訳設定でよく見られる。
推論時間における適応型MTの品質向上には,言語モデルが有効か?
論文 参考訳(メタデータ) (2024-01-25T23:02:54Z) - Can Domains Be Transferred Across Languages in Multi-Domain Multilingual
Neural Machine Translation? [52.27798071809941]
本稿では,多言語NMTと多言語NMTの合成において,言語間でドメイン情報を転送できるかどうかを検討する。
マルチドメイン多言語(MDML)NMTは,BLEUで0ショット変換性能を+10ゲインまで向上させることができる。
論文 参考訳(メタデータ) (2022-10-20T23:13:54Z) - Addressing Issues of Cross-Linguality in Open-Retrieval Question
Answering Systems For Emergent Domains [67.99403521976058]
新型コロナウイルスの緊急ドメインに対する言語横断的オープン検索型質問応答システムについて紹介する。
本システムでは,検索した文書の信頼性を確保するために,学術論文のコーパスを採用している。
深いセマンティック・レトリバーは、我々の英語からすべてのデータに対するトレーニングの恩恵が大きく、言語横断環境ではBM25ベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-01-26T19:27:32Z) - On the Evaluation of Machine Translation for Terminology Consistency [31.67296249688388]
本稿では,MT出力の整合性を測定するための指標を提案する。
我々は5言語以上の新型コロナウイルス領域の研究を行い、用語を対象とする人間の評価も行います。
論文 参考訳(メタデータ) (2021-06-22T15:59:32Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。