論文の概要: Efficient Terminology Integration for LLM-based Translation in Specialized Domains
- arxiv url: http://arxiv.org/abs/2410.15690v1
- Date: Mon, 21 Oct 2024 07:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:23.022051
- Title: Efficient Terminology Integration for LLM-based Translation in Specialized Domains
- Title(参考訳): 特殊ドメインにおけるLLM翻訳のための効率的な用語統合
- Authors: Sejoon Kim, Mingi Sung, Jeonghwan Lee, Hyunkuk Lim, Jorge Froilan Gimenez Perez,
- Abstract要約: 特許、金融、バイオメディカルドメインなどの専門分野において、用語は翻訳に不可欠である。
本稿では,用語翻訳の精度を保ちながら,少ない量のデータで効率的にモデルを訓練する手法を提案する。
この手法は、専門用語を扱うモデルの能力を高め、高品質な翻訳を保証する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Traditional machine translation methods typically involve training models directly on large parallel corpora, with limited emphasis on specialized terminology. However, In specialized fields such as patent, finance, or biomedical domains, terminology is crucial for translation, with many terms that needs to be translated following agreed-upon conventions. In this paper we introduce a methodology that efficiently trains models with a smaller amount of data while preserving the accuracy of terminology translation. We achieve this through a systematic process of term extraction and glossary creation using the Trie Tree algorithm, followed by data reconstruction to teach the LLM how to integrate these specialized terms. This methodology enhances the model's ability to handle specialized terminology and ensures high-quality translations, particularly in fields where term consistency is crucial. Our approach has demonstrated exceptional performance, achieving the highest translation score among participants in the WMT patent task to date, showcasing its effectiveness and broad applicability in specialized translation domains where general methods often fall short.
- Abstract(参考訳): 伝統的な機械翻訳法は、通常、特定の用語に限定して、大きな並列コーパス上で直接訓練モデルを含む。
しかし、特許、金融、バイオメディカルドメインなどの専門分野において、用語は翻訳に不可欠であり、合意された慣例に従って翻訳する必要がある用語が多い。
本稿では,用語翻訳の精度を保ちながら,少ないデータ量で効率的にモデルを訓練する手法を提案する。
本稿では,Trie Treeアルゴリズムを用いた用語抽出と用語生成の体系的なプロセスを通じてこれを達成し,続いてデータ再構成を行い,これらの専門用語を統合する方法についてLLMに教える。
この手法は、専門用語を扱うモデルの能力を高め、特に項整合性が重要である分野において、高品質な翻訳を保証する。
提案手法は,WMT特許課題の参加者のうち,これまでで最も高い翻訳スコアを達成し,一般的な手法が不足する特殊な翻訳領域において,その有効性と適用性を示した。
関連論文リスト
- Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation [0.0]
本稿では,専門分野におけるコミュニケーションの明確化に不可欠である専門用語を正確に翻訳することの課題に対処する。
本研究は, ペアレンテティカル・ターミノロジー・トランスフォーメーション (PTT) タスクを導入し, ペアレンテティカル・ターミノロジー・トランスフォーメーション(PTT)タスクの翻訳とともに, ペアレンテティカル・ターミノロジー・トランスフォーメーション(Parenthetical Terminology Translation, PTT)タスクを導入した。
そこで我々は,単語の全体的な翻訳精度と正しい括弧表現の両方を評価するための新しい評価指標を開発した。
論文 参考訳(メタデータ) (2024-10-01T13:40:28Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Combining Language Models For Specialized Domains: A Colorful Approach [14.124988885323585]
ドメイン固有または二次のLMを汎用のLMに統合する新しいアプローチを導入する。
この戦略は、各単語が一般またはドメイン固有のLMと関連していることを示すラベル付け、または「色付け」を含む。
色付き単語を含む推論を効果的に処理するビーム探索アルゴリズムを最適化したアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-30T16:35:55Z) - Terminology-Aware Translation with Constrained Decoding and Large
Language Model Prompting [11.264272119913311]
我々は、WMT 2023用語翻訳タスクを提出する。
私たちは、ドメインに依存しない、最小限の手作業を必要とするトランスレーション-then-refineアプローチを採用しています。
その結果,我々の用語認識モデルは,効率的に用語を組み込むことができることがわかった。
論文 参考訳(メタデータ) (2023-10-09T16:08:23Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Self-Supervised Knowledge Assimilation for Expert-Layman Text Style
Transfer [63.72621204057025]
エキスパート・レイマン・テキスト・スタイル・トランスファー技術は、科学コミュニティと一般大衆とのコミュニケーションを改善する可能性がある。
専門家が生み出す高品質な情報は、しばしば難しいジャーゴンの平民が理解するのに苦労している。
これは医療分野において特に顕著な問題であり、レイマンはしばしばオンラインの医療テキストに混同される。
論文 参考訳(メタデータ) (2021-10-06T17:57:22Z) - Dynamic Terminology Integration for COVID-19 and other Emerging Domains [4.492630871726495]
本研究は、Tilde MTシステムにおいて、翻訳時の動的用語統合を可能としたWMT 2021共有タスク:ターミノロジーを用いた機械翻訳の一部である。
当システムでは、EN-FR言語ペアのテストセット上で、システムトレーニング中にドメイン内の情報にアクセスすることなく、最大94%の長期使用精度を達成している。
論文 参考訳(メタデータ) (2021-09-10T07:23:55Z) - Improving Lexically Constrained Neural Machine Translation with
Source-Conditioned Masked Span Prediction [6.46964825569749]
本稿では、より長いn-gramと高度に専門化された用語を持つドメイン固有コーパスからなるより困難なセットアップに取り組む。
生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加する。
2つの言語対における3つのドメイン固有コーパスの実験結果から,提案手法が既存の語彙制約手法の性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-05-12T08:11:33Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。