論文の概要: A Survey of Orthographic Information in Machine Translation
- arxiv url: http://arxiv.org/abs/2008.01391v1
- Date: Tue, 4 Aug 2020 07:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:15:13.755440
- Title: A Survey of Orthographic Information in Machine Translation
- Title(参考訳): 機械翻訳におけるオーソグラフィ情報の調査
- Authors: Bharathi Raja Chakravarthi, Priya Rani, Mihael Arcan and John P.
McCrae
- Abstract要約: 我々は, アンダーリソース言語における機械翻訳を改善するために, 正書法情報をどのように利用できるかを示す。
本稿では,機械翻訳のさまざまなタイプについて論じるとともに,正書法と機械翻訳手法の整合性を示す最近の傾向を示す。
- 参考スコア(独自算出の注目度): 1.2124289787900182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine translation is one of the applications of natural language processing
which has been explored in different languages. Recently researchers started
paying attention towards machine translation for resource-poor languages and
closely related languages. A widespread and underlying problem for these
machine translation systems is the variation in orthographic conventions which
causes many issues to traditional approaches. Two languages written in two
different orthographies are not easily comparable, but orthographic information
can also be used to improve the machine translation system. This article offers
a survey of research regarding orthography's influence on machine translation
of under-resourced languages. It introduces under-resourced languages in terms
of machine translation and how orthographic information can be utilised to
improve machine translation. We describe previous work in this area, discussing
what underlying assumptions were made, and showing how orthographic knowledge
improves the performance of machine translation of under-resourced languages.
We discuss different types of machine translation and demonstrate a recent
trend that seeks to link orthographic information with well-established machine
translation methods. Considerable attention is given to current efforts of
cognates information at different levels of machine translation and the lessons
that can be drawn from this. Additionally, multilingual neural machine
translation of closely related languages is given a particular focus in this
survey. This article ends with a discussion of the way forward in machine
translation with orthographic information, focusing on multilingual settings
and bilingual lexicon induction.
- Abstract(参考訳): 機械翻訳は自然言語処理の応用の一つであり、様々な言語で研究されている。
近年,資源不足言語や近縁言語に対する機械翻訳に注目が集まっている。
これらの機械翻訳システムに広く根ざした問題は、従来の手法に多くの問題を引き起こす正書法における変化である。
2つの異なる正書法で記述された2つの言語は比較が難しいが、機械翻訳システムを改善するために正書法情報を利用することもできる。
本稿は, アンダーリソース言語による機械翻訳における正書法の影響について調査する。
機械翻訳におけるアンダーリソース言語の導入と、機械翻訳を改善するための正書法情報の利用方法を紹介する。
この領域における過去の研究について述べ、その基礎となる前提について論じ、また、正書法知識がアンダーリソース言語における機械翻訳の性能をいかに改善するかを示す。
本稿では,機械翻訳のさまざまなタイプについて論じ,機械翻訳手法の確立と正書法情報のリンクを求める最近の傾向を示す。
機械翻訳の異なるレベルにおけるコニャート情報に対する現在の取り組みや、そこから引き出すことができる教訓に、考慮すべき注意が払われる。
さらに、密接に関連する言語の多言語ニューラルマシン翻訳がこの調査に特に焦点をあてている。
本稿は,多言語環境とバイリンガル語彙誘導に着目し,正書法情報を用いた機械翻訳の方向性に関する議論を終える。
関連論文リスト
- On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Informative Language Representation Learning for Massively Multilingual
Neural Machine Translation [47.19129812325682]
多言語ニューラルマシン翻訳モデルでは、通常、人工言語トークンを使用して、所望のターゲット言語への翻訳をガイドする。
近年の研究では、先行する言語トークンは、多言語ニューラルマシン翻訳モデルから正しい翻訳方向へのナビゲートに失敗することがある。
本稿では,言語埋め込み型エンボディメントと言語認識型マルチヘッドアテンションという2つの手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T04:27:17Z) - On the Influence of Machine Translation on Language Origin Obfuscation [0.3437656066916039]
本稿では、広く使われている2つの商用機械翻訳システムの翻訳結果から、ソースコードを検出する能力について分析する。
評価の結果,十分な量の翻訳文を含む文書に対して,ソースコードを高精度に再構築できることが示唆された。
論文 参考訳(メタデータ) (2021-06-24T08:33:24Z) - Extremely low-resource machine translation for closely related languages [0.0]
この研究は、エストニア語とフィンランド語というウラル語族の近縁言語に焦点を当てている。
多言語学習と合成コーパスにより,各言語対の翻訳品質が向上することがわかった。
転送学習と微調整は低リソースの機械翻訳に非常に効果的であり、最良の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:27:06Z) - A Framework for Hierarchical Multilingual Machine Translation [3.04585143845864]
本稿では,多言語機械翻訳戦略を構築するための階層的枠組みを提案する。
類似言語間の移動を可能にするために、類型的言語系木を利用する。
41言語からなるデータセット上での探索実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-05-12T01:24:43Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。