Fugu-MT 論文翻訳(概要): On Translating Technical Terminology: A Translation Workflow for Machine-Translated Acronyms

論文の概要: On Translating Technical Terminology: A Translation Workflow for Machine-Translated Acronyms

arxiv url: http://arxiv.org/abs/2409.17943v1
Date: Thu, 26 Sep 2024 15:18:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-28 16:52:13.049500
Title: On Translating Technical Terminology: A Translation Workflow for Machine-Translated Acronyms
Title（参考訳）: 翻訳技術ターミノロジー--翻訳ワークフロー機械翻訳の頭字語
Authors: Richard Yue, John E. Ortega, Kenneth Ward Church
Abstract要約: 技術的な用語、特に頭字語を翻訳する、重要なステップが見逃されていることが分かりました。 Google Translateのような最先端の機械翻訳システムは、頭字語を扱う際に誤用されることがある。 SL-TL (FR-EN) 翻訳ワークフローに追加のステップを提案し、まず、公共消費のための新しい頭字語コーパスを提供し、次に検索ベースのしきい値付けアルゴリズムを実験する。
参考スコア（独自算出の注目度）: 3.053989095162017
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The typical workflow for a professional translator to translate a document from its source language (SL) to a target language (TL) is not always focused on what many language models in natural language processing (NLP) do - predict the next word in a series of words. While high-resource languages like English and French are reported to achieve near human parity using common metrics for measurement such as BLEU and COMET, we find that an important step is being missed: the translation of technical terms, specifically acronyms. Some state-of-the art machine translation systems like Google Translate which are publicly available can be erroneous when dealing with acronyms - as much as 50% in our findings. This article addresses acronym disambiguation for MT systems by proposing an additional step to the SL-TL (FR-EN) translation workflow where we first offer a new acronym corpus for public consumption and then experiment with a search-based thresholding algorithm that achieves nearly 10% increase when compared to Google Translate and OpusMT.
Abstract（参考訳）: プロの翻訳者が文書をそのソース言語(SL)からターゲット言語(TL)に翻訳する典型的なワークフローは、自然言語処理(NLP)における多くの言語モデルが何をするかに常に焦点を絞っているわけではない。 BLEU や COMET のような測定のための一般的な指標を用いて、英語やフランス語のような高リソース言語が人間のパリティ付近で達成されることが報告されているが、重要なステップとして、技術的用語、特に頭字語への翻訳が欠落していることが判明した。 Google Translateのような最先端の機械翻訳システムは、頭字語を扱うときに誤用されることがある。本稿では、まず、一般消費のための新しい頭字語コーパスを提供するSL-TL(FR-EN)翻訳ワークフローの追加ステップを提案し、次に、Google TranslateやOpusMTと比較して10%近く増加する検索ベースのしきい値アルゴリズムを実験する。

関連論文リスト

Bridging Language Gaps in Open-Source Documentation with Large-Language-Model Translation [7.742297876120563]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクとドメイン間の翻訳において顕著な能力を示した。 OpenAI の ChatGPT 4 と Anthropic の Claude を用いて,50 ファイルのコミュニティ翻訳活動と英独翻訳を評価した。
論文参考訳（メタデータ） (2025-08-04T15:07:35Z)
Compositional Translation: A Novel LLM-based Approach for Low-resource Machine Translation [20.704153242284114]
機械翻訳は、翻訳する文と意味的に類似している場合に、文脈内例の恩恵を受けることが示されている。本稿では,LLMに基づく新しい翻訳パラダイムである合成翻訳を提案する。私たちの直感は、これらの短いフレーズは本質的に翻訳が簡単で、関連する例と簡単に一致するので、このアプローチは翻訳を改善するべきだということです。
論文参考訳（メタデータ） (2025-03-06T15:37:31Z)
Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T14:53:49Z)
Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST) [19.91873751674613]
GISTは2000年から2023年にかけての上位AIカンファレンス論文から抽出された5K語を含む、大規模な多言語AI用語データセットである。この用語はアラビア語、中国語、フランス語、日本語、ロシア語に翻訳され、LLMを抽出するためのハイブリッドフレームワークと翻訳のための人間の専門知識を組み合わせたものである。データセットの品質は既存のリソースに対してベンチマークされ、クラウドソースによる評価によって、より優れた翻訳精度を示す。
論文参考訳（メタデータ） (2024-12-24T11:50:18Z)
Retrieval-Augmented Machine Translation with Unstructured Knowledge [74.84236945680503]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を強化するために追加情報を導入する機械翻訳(MT)では、従来の研究は通常、ペア化されたMTコーパスや知識グラフからコンテキスト内例を検索する。本稿では,非構造化文書を用いた検索強化MTについて検討する。
論文参考訳（メタデータ） (2024-12-05T17:00:32Z)
Simplifying Translations for Children: Iterative Simplification Considering Age of Acquisition with LLMs [19.023628411128406]
本稿では,翻訳における単語をAoA(High Age of Acquisitions)に置き換える手法を提案する。その結果,提案手法は高AoA語を低AoA語に効果的に置き換えることを示した。
論文参考訳（メタデータ） (2024-08-08T04:57:36Z)
LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文参考訳（メタデータ） (2024-06-03T15:30:36Z)
Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文参考訳（メタデータ） (2023-10-23T12:22:15Z)
Towards Effective Disambiguation for Machine Translation with Large Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文参考訳（メタデータ） (2023-09-20T22:22:52Z)
Translate to Disambiguate: Zero-shot Multilingual Word Sense Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。 C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文参考訳（メタデータ） (2023-04-26T19:55:52Z)
Dictionary-based Phrase-level Prompting of Large Language Models for Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。 LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。 LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文参考訳（メタデータ） (2023-02-15T18:46:42Z)
DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文参考訳（メタデータ） (2022-10-13T13:04:16Z)
AlphaMWE: Construction of Multilingual Parallel Corpora with MWE Annotations [5.8010446129208155]
マルチワード表現(MWE)アノテーションを用いた多言語並列コーパスの構築について述べる。対象言語は英語、中国語、ポーランド語、ドイツ語である。 MWE関連翻訳において,MTシステムで発生する誤りの種類を分類する。
論文参考訳（メタデータ） (2020-11-07T14:28:54Z)
Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文参考訳（メタデータ） (2020-04-06T12:05:02Z)
Language-Independent Tokenisation Rivals Language-Specific Tokenisation for Word Similarity Prediction [12.376752724719005]
言語に依存しないトークン化(LIT)メソッドはラベル付き言語リソースや語彙を必要としない。言語固有のトークン化(LST)手法は、長い歴史と確立された歴史を持ち、慎重に作成された語彙とトレーニングリソースを用いて開発されている。意味的類似度測定を多種多様な言語を対象とした評価課題として用いた2つの手法を実証的に比較した。
論文参考訳（メタデータ） (2020-02-25T16:24:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。