論文の概要: On Translating Technical Terminology: A Translation Workflow for
Machine-Translated Acronyms
- arxiv url: http://arxiv.org/abs/2409.17943v1
- Date: Thu, 26 Sep 2024 15:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 16:52:13.049500
- Title: On Translating Technical Terminology: A Translation Workflow for
Machine-Translated Acronyms
- Title(参考訳): 翻訳技術ターミノロジー--翻訳ワークフロー
機械翻訳の頭字語
- Authors: Richard Yue, John E. Ortega, Kenneth Ward Church
- Abstract要約: 技術的な用語、特に頭字語を翻訳する、重要なステップが見逃されていることが分かりました。
Google Translateのような最先端の機械翻訳システムは、頭字語を扱う際に誤用されることがある。
SL-TL (FR-EN) 翻訳ワークフローに追加のステップを提案し、まず、公共消費のための新しい頭字語コーパスを提供し、次に検索ベースのしきい値付けアルゴリズムを実験する。
- 参考スコア(独自算出の注目度): 3.053989095162017
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The typical workflow for a professional translator to translate a document
from its source language (SL) to a target language (TL) is not always focused
on what many language models in natural language processing (NLP) do - predict
the next word in a series of words. While high-resource languages like English
and French are reported to achieve near human parity using common metrics for
measurement such as BLEU and COMET, we find that an important step is being
missed: the translation of technical terms, specifically acronyms. Some
state-of-the art machine translation systems like Google Translate which are
publicly available can be erroneous when dealing with acronyms - as much as 50%
in our findings. This article addresses acronym disambiguation for MT systems
by proposing an additional step to the SL-TL (FR-EN) translation workflow where
we first offer a new acronym corpus for public consumption and then experiment
with a search-based thresholding algorithm that achieves nearly 10% increase
when compared to Google Translate and OpusMT.
- Abstract(参考訳): プロの翻訳者が文書をそのソース言語(SL)からターゲット言語(TL)に翻訳する典型的なワークフローは、自然言語処理(NLP)における多くの言語モデルが何をするかに常に焦点を絞っているわけではない。
BLEU や COMET のような測定のための一般的な指標を用いて、英語やフランス語のような高リソース言語が人間のパリティ付近で達成されることが報告されているが、重要なステップとして、技術的用語、特に頭字語への翻訳が欠落していることが判明した。
Google Translateのような最先端の機械翻訳システムは、頭字語を扱うときに誤用されることがある。
本稿では、まず、一般消費のための新しい頭字語コーパスを提供するSL-TL(FR-EN)翻訳ワークフローの追加ステップを提案し、次に、Google TranslateやOpusMTと比較して10%近く増加する検索ベースのしきい値アルゴリズムを実験する。
関連論文リスト
- Simplifying Translations for Children: Iterative Simplification Considering Age of Acquisition with LLMs [19.023628411128406]
本稿では,翻訳における単語をAoA(High Age of Acquisitions)に置き換える手法を提案する。
その結果,提案手法は高AoA語を低AoA語に効果的に置き換えることを示した。
論文 参考訳(メタデータ) (2024-08-08T04:57:36Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - AlphaMWE: Construction of Multilingual Parallel Corpora with MWE
Annotations [5.8010446129208155]
マルチワード表現(MWE)アノテーションを用いた多言語並列コーパスの構築について述べる。
対象言語は英語、中国語、ポーランド語、ドイツ語である。
MWE関連翻訳において,MTシステムで発生する誤りの種類を分類する。
論文 参考訳(メタデータ) (2020-11-07T14:28:54Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z) - Language-Independent Tokenisation Rivals Language-Specific Tokenisation
for Word Similarity Prediction [12.376752724719005]
言語に依存しないトークン化(LIT)メソッドはラベル付き言語リソースや語彙を必要としない。
言語固有のトークン化(LST)手法は、長い歴史と確立された歴史を持ち、慎重に作成された語彙とトレーニングリソースを用いて開発されている。
意味的類似度測定を多種多様な言語を対象とした評価課題として用いた2つの手法を実証的に比較した。
論文 参考訳(メタデータ) (2020-02-25T16:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。