論文の概要: On Translating Technical Terminology: A Translation Workflow for
Machine-Translated Acronyms
- arxiv url: http://arxiv.org/abs/2409.17943v1
- Date: Thu, 26 Sep 2024 15:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 16:52:13.049500
- Title: On Translating Technical Terminology: A Translation Workflow for
Machine-Translated Acronyms
- Title(参考訳): 翻訳技術ターミノロジー--翻訳ワークフロー
機械翻訳の頭字語
- Authors: Richard Yue, John E. Ortega, Kenneth Ward Church
- Abstract要約: 技術的な用語、特に頭字語を翻訳する、重要なステップが見逃されていることが分かりました。
Google Translateのような最先端の機械翻訳システムは、頭字語を扱う際に誤用されることがある。
SL-TL (FR-EN) 翻訳ワークフローに追加のステップを提案し、まず、公共消費のための新しい頭字語コーパスを提供し、次に検索ベースのしきい値付けアルゴリズムを実験する。
- 参考スコア(独自算出の注目度): 3.053989095162017
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The typical workflow for a professional translator to translate a document
from its source language (SL) to a target language (TL) is not always focused
on what many language models in natural language processing (NLP) do - predict
the next word in a series of words. While high-resource languages like English
and French are reported to achieve near human parity using common metrics for
measurement such as BLEU and COMET, we find that an important step is being
missed: the translation of technical terms, specifically acronyms. Some
state-of-the art machine translation systems like Google Translate which are
publicly available can be erroneous when dealing with acronyms - as much as 50%
in our findings. This article addresses acronym disambiguation for MT systems
by proposing an additional step to the SL-TL (FR-EN) translation workflow where
we first offer a new acronym corpus for public consumption and then experiment
with a search-based thresholding algorithm that achieves nearly 10% increase
when compared to Google Translate and OpusMT.
- Abstract(参考訳): プロの翻訳者が文書をそのソース言語(SL)からターゲット言語(TL)に翻訳する典型的なワークフローは、自然言語処理(NLP)における多くの言語モデルが何をするかに常に焦点を絞っているわけではない。
BLEU や COMET のような測定のための一般的な指標を用いて、英語やフランス語のような高リソース言語が人間のパリティ付近で達成されることが報告されているが、重要なステップとして、技術的用語、特に頭字語への翻訳が欠落していることが判明した。
Google Translateのような最先端の機械翻訳システムは、頭字語を扱うときに誤用されることがある。
本稿では、まず、一般消費のための新しい頭字語コーパスを提供するSL-TL(FR-EN)翻訳ワークフローの追加ステップを提案し、次に、Google TranslateやOpusMTと比較して10%近く増加する検索ベースのしきい値アルゴリズムを実験する。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST) [19.91873751674613]
GISTは2000年から2023年にかけての上位AIカンファレンス論文から抽出された5K語を含む、大規模な多言語AI用語データセットである。
この用語はアラビア語、中国語、フランス語、日本語、ロシア語に翻訳され、LLMを抽出するためのハイブリッドフレームワークと翻訳のための人間の専門知識を組み合わせたものである。
この研究は、AI用語リソースにおける重要なギャップに対処し、AI研究におけるグローバルな傾きとコラボレーションを促進することを目的としている。
論文 参考訳(メタデータ) (2024-12-24T11:50:18Z) - Retrieval-Augmented Machine Translation with Unstructured Knowledge [74.84236945680503]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を強化するために追加情報を導入する
機械翻訳(MT)では、従来の研究は通常、ペア化されたMTコーパスや知識グラフからコンテキスト内例を検索する。
本稿では,非構造化文書を用いた検索強化MTについて検討する。
論文 参考訳(メタデータ) (2024-12-05T17:00:32Z) - Simplifying Translations for Children: Iterative Simplification Considering Age of Acquisition with LLMs [19.023628411128406]
本稿では,翻訳における単語をAoA(High Age of Acquisitions)に置き換える手法を提案する。
その結果,提案手法は高AoA語を低AoA語に効果的に置き換えることを示した。
論文 参考訳(メタデータ) (2024-08-08T04:57:36Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - AlphaMWE: Construction of Multilingual Parallel Corpora with MWE
Annotations [5.8010446129208155]
マルチワード表現(MWE)アノテーションを用いた多言語並列コーパスの構築について述べる。
対象言語は英語、中国語、ポーランド語、ドイツ語である。
MWE関連翻訳において,MTシステムで発生する誤りの種類を分類する。
論文 参考訳(メタデータ) (2020-11-07T14:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。