論文の概要: A Morphologically-Aware Dictionary-based Data Augmentation Technique for
Machine Translation of Under-Represented Languages
- arxiv url: http://arxiv.org/abs/2402.01939v1
- Date: Fri, 2 Feb 2024 22:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:13:29.786559
- Title: A Morphologically-Aware Dictionary-based Data Augmentation Technique for
Machine Translation of Under-Represented Languages
- Title(参考訳): 非表現言語機械翻訳のための形態素認識辞書に基づくデータ拡張手法
- Authors: Md Mahfuz Ibn Alam, Sina Ahmadi and Antonios Anastasopoulos
- Abstract要約: 本稿では,モルフォシンタクティック情報とバイリンガル辞書を用いて並列データを合成する手法を提案する。
我々の手法は、小さな並列シードデータによって支えられた現実的なシナリオに固執する。
文法的に正しい可能性が高い拡張データを作成することを目的としており、言語的に知らされている。
- 参考スコア(独自算出の注目度): 31.18983138590214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of parallel texts is crucial to the performance of machine
translation models. However, most of the world's languages face the predominant
challenge of data scarcity. In this paper, we propose strategies to synthesize
parallel data relying on morpho-syntactic information and using bilingual
lexicons along with a small amount of seed parallel data. Our methodology
adheres to a realistic scenario backed by the small parallel seed data. It is
linguistically informed, as it aims to create augmented data that is more
likely to be grammatically correct. We analyze how our synthetic data can be
combined with raw parallel data and demonstrate a consistent improvement in
performance in our experiments on 14 languages (28 English <-> X pairs) ranging
from well- to very low-resource ones. Our method leads to improvements even
when using only five seed sentences and a bilingual lexicon.
- Abstract(参考訳): 並列テキストの可用性は、機械翻訳モデルの性能に不可欠である。
しかし、世界のほとんどの言語は、データ不足という大きな課題に直面している。
本稿では,2言語レキシコンと少量のシードパラレルデータを用いて,モルフォ・シンタクティック情報に基づく並列データを合成する方法を提案する。
我々の手法は、小さな並列シードデータによって支えられた現実的なシナリオに固執する。
文法的に正しい可能性が高い拡張データを作成することを目的としており、言語的に知らされている。
合成データを生の並列データと組み合わせる方法について分析し,14言語(28組の英語<->Xペア)における実験において,良質から低リソースまで,一貫した性能向上を示す。
本手法は,5つのシード文とバイリンガル辞書を用いても改善につながる。
関連論文リスト
- Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Bilex Rx: Lexical Data Augmentation for Massively Multilingual Machine
Translation [33.6064740446337]
この研究は、この問題に対処するための安価で豊富な資源であるバイリンガル・レキシカを探求する。
我々は,ウェブクローリングテキストを用いた200言語翻訳モデルを用いて,実世界の辞書におけるバイリンガル辞書の有効性を検証した。
筆者らは,(1)語彙データ拡張を用いて,教師なし翻訳の性能向上を実証し,(2)データ拡張のいくつかの家系を比較し,それらが類似した改善をもたらすことを示すとともに,(3)より大きく,ノイズの多いレキシカよりも慎重にキュレートされたレキシカの重要性を示す。
論文 参考訳(メタデータ) (2023-03-27T14:54:43Z) - On the Role of Parallel Data in Cross-lingual Transfer Learning [30.737717433111776]
本稿では, 教師なし機械翻訳を用いて合成並列データを生成する方法について検討する。
モデルが生成した並列データでさえ、下流のタスクに役立ちます。
以上の結果から,既存の多言語モデルではモノリンガルデータの潜在能力を活用できないことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T11:23:04Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Cross-language Sentence Selection via Data Augmentation and Rationale
Training [22.106577427237635]
雑音のある並列文データに対するデータ拡張と負のサンプリング技術を用いて、言語間埋め込みに基づくクエリ関連モデルの学習を行う。
その結果、同じ並列データでトレーニングされた複数の最先端機械翻訳+モノリンガル検索システムよりも、このアプローチが優れているか、あるいは優れていることが示された。
論文 参考訳(メタデータ) (2021-06-04T07:08:47Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z) - Synthesizing Monolingual Data for Neural Machine Translation [22.031658738184166]
ニューラルマシン翻訳(NMT)では、ターゲット言語の単言語データが通常、追加の訓練並列データを合成するために利用される。
ターゲットドメインや言語における大きなモノリンガルデータは、必ずしも大きな合成並列データを生成するために利用できない。
特定の領域における非常に小さな単言語データを利用した大規模合成並列データを生成する手法を提案する。
論文 参考訳(メタデータ) (2021-01-29T08:17:40Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。