論文の概要: Predicting Anchored Text from Translation Memories for Machine
Translation Using Deep Learning Methods
- arxiv url: http://arxiv.org/abs/2409.17939v1
- Date: Thu, 26 Sep 2024 15:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 16:52:13.056796
- Title: Predicting Anchored Text from Translation Memories for Machine
Translation Using Deep Learning Methods
- Title(参考訳): 機械翻訳記録からのアンコレッドテキストの予測
深層学習を用いた翻訳
- Authors: Richard Yue, John E. Ortega
- Abstract要約: 本稿では、CBOW(Continuous bag-of-words)パラダイムに従うアンカードワードに対して、Word2Vec、BERT、GPT-4を使用できることを示す。
一部のケースでは、フランス語から英語へのアンカー付き単語の翻訳において、ニューラルマシン翻訳よりも良い結果が得られる。
- 参考スコア(独自算出の注目度): 2.44755919161855
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Translation memories (TMs) are the backbone for professional translation
tools called computer-aided translation (CAT) tools. In order to perform a
translation using a CAT tool, a translator uses the TM to gather translations
similar to the desired segment to translate (s'). Many CAT tools offer a
fuzzy-match algorithm to locate segments (s) in the TM that are close in
distance to s'. After locating two similar segments, the CAT tool will present
parallel segments (s, t) that contain one segment in the source language along
with its translation in the target language. Additionally, CAT tools contain
fuzzy-match repair (FMR) techniques that will automatically use the parallel
segments from the TM to create new TM entries containing a modified version of
the original with the idea in mind that it will be the translation of s'. Most
FMR techniques use machine translation as a way of "repairing" those words that
have to be modified. In this article, we show that for a large part of those
words which are anchored, we can use other techniques that are based on machine
learning approaches such as Word2Vec. BERT, and even ChatGPT. Specifically, we
show that for anchored words that follow the continuous bag-of-words (CBOW)
paradigm, Word2Vec, BERT, and GPT-4 can be used to achieve similar and, for
some cases, better results than neural machine translation for translating
anchored words from French to English.
- Abstract(参考訳): 翻訳メモリ(TM)は、コンピュータ支援翻訳(CAT)ツールと呼ばれるプロ向け翻訳ツールのバックボーンである。
CATツールを使用して翻訳を行うために、翻訳者はTMを使用して、所望のセグメントに似た翻訳を収集して(s')翻訳する。
多くのCATツールがセグメントを見つけるファジィマッチングアルゴリズムを提供
(s) s との距離が近い TM において。
2つの似たセグメントを配置した後、CATツールは並列セグメント(s, s)を提示する。
t) ソース言語の1つのセグメントと対象言語の翻訳を含むもの。
さらに、CATツールにはファジィマッチ修復(FMR)技術が含まれており、TMからの並列セグメントを自動的に使用して、オリジナルの修正版を含む新しいTMエントリを作成し、s'の翻訳を念頭に置いている。
ほとんどのFMR技術は、機械翻訳を変更すべき単語を「修復」する方法として使っている。
本稿では,これらの単語の大部分がアンカーされている場合,Word2Vecのような機械学習アプローチに基づく他の手法を用いることができることを示す。
BERTもChatGPTも。
具体的には、CBOW(Continuous bag-of-words, Word2Vec, BERT, GPT-4)パラダイムに従うアンカー付き単語に対して、フランス語から英語への翻訳において、ニューラルマシン翻訳よりも優れた結果が得られることを示す。
関連論文リスト
- Creating Domain-Specific Translation Memories for Machine Translation Fine-tuning: The TRENCARD Bilingual Cardiology Corpus [0.0]
本稿では,翻訳者が主に使用する翻訳ツールを活用した半自動TM作成手法を紹介する。
TRENCARD Corpusと呼ばれる結果のコーパスには、約80,000のソースワードと5万の文がある。
論文 参考訳(メタデータ) (2024-09-04T12:48:30Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Subword Segmental Machine Translation: Unifying Segmentation and Target
Sentence Generation [7.252933737829635]
サブワードセグメント機械翻訳(SSMT)は、目標文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。
6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。
論文 参考訳(メタデータ) (2023-05-11T17:44:29Z) - Neural Machine Translation with Contrastive Translation Memories [71.86990102704311]
Retrieval-augmented Neural Machine Translationモデルは、多くの翻訳シナリオで成功している。
そこで本論文では,新たに検索拡張NMTを提案し,ソース文と相似なコントラスト検索された翻訳記憶をモデル化する。
訓練段階では、目標文に対する各TMの健全な特徴を学習するために、マルチTMコントラスト学習目標を導入する。
論文 参考訳(メタデータ) (2022-12-06T17:10:17Z) - Multilingual Domain Adaptation for NMT: Decoupling Language and Domain
Information with Adapters [66.7986513246294]
機械翻訳の文脈における言語とドメインアダプタの構成性について検討する。
部分的なリソースのシナリオでは、ドメイン固有のアダプタと言語固有のアダプタの組み合わせは、しばしば欠落した言語を破滅的に忘れてしまう。
論文 参考訳(メタデータ) (2021-10-18T18:55:23Z) - Neural Machine Translation with Monolingual Translation Memory [58.98657907678992]
本稿では,モノリンガルメモリを用いて学習可能なメモリ検索を行う新しいフレームワークを提案する。
実験の結果,提案手法は大幅な改善が得られた。
論文 参考訳(メタデータ) (2021-05-24T13:35:19Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。