論文の概要: Multiple Segmentations of Thai Sentences for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2004.11472v1
- Date: Thu, 23 Apr 2020 21:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 09:37:09.763234
- Title: Multiple Segmentations of Thai Sentences for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のためのタイ文の複数分割
- Authors: Alberto Poncelas, Wichaya Pidchamook, Chao-Hong Liu, James Hadley,
Andy Way
- Abstract要約: タイ語における単語分割手法の異なる文対を複製することにより、タイ語並列データの集合を拡大する方法を示す。
実験によると、これらのデータセットを組み合わせることで、教師付き分割ツールを使用して分割されたデータセットでトレーニングされたNMTモデルのパフォーマンスが改善されている。
- 参考スコア(独自算出の注目度): 6.1335228645093265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thai is a low-resource language, so it is often the case that data is not
available in sufficient quantities to train an Neural Machine Translation (NMT)
model which perform to a high level of quality. In addition, the Thai script
does not use white spaces to delimit the boundaries between words, which adds
more complexity when building sequence to sequence models. In this work, we
explore how to augment a set of English--Thai parallel data by replicating
sentence-pairs with different word segmentation methods on Thai, as training
data for NMT model training. Using different merge operations of Byte Pair
Encoding, different segmentations of Thai sentences can be obtained. The
experiments show that combining these datasets, performance is improved for NMT
models trained with a dataset that has been split using a supervised splitting
tool.
- Abstract(参考訳): タイ語は低リソース言語であるため、高レベルの品質を実現するニューラルネットワーク翻訳(NMT)モデルをトレーニングするのに十分な量のデータが入手できない場合が多い。
加えて、タイ文字は単語間の境界を区切るために白い空間を使用しないため、シーケンスモデルを構築する際にさらに複雑さが増す。
本研究では,NMTモデルトレーニングのためのトレーニングデータとして,タイ語で異なる単語セグメンテーション手法で文ペアを複製することで,タイ語並列データの集合を拡張する方法について検討する。
Byte Pair Encodingの異なるマージ操作を使用して、タイ語文の異なるセグメンテーションを得ることができる。
実験の結果、これらのデータセットを組み合わせることで、教師付き分割ツールを使用して分割されたデータセットでトレーニングされたNMTモデルのパフォーマンスが改善された。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - TAMS: Translation-Assisted Morphological Segmentation [3.666125285899499]
正準形態素セグメンテーションのためのシーケンス・ツー・シーケンスモデルを提案する。
我々のモデルは、超低リソース設定においてベースラインよりも優れるが、トレーニング分割とより多くのデータとの混合結果が得られる。
高いリソース設定で翻訳を便利にするためには、さらなる作業が必要であるが、我々のモデルは、リソース制約の厳しい設定で、約束を示す。
論文 参考訳(メタデータ) (2024-03-21T21:23:35Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z) - WangchanBERTa: Pretraining transformer-based Thai Language Models [2.186960190193067]
大規模で重複したクリーンなトレーニングセット(総サイズ78GB)上で,RoBERTaベースアーキテクチャに基づく言語モデルを事前訓練する。
我々は,タイの最も重要な保存空間に特有のテキスト処理規則を適用する。
また, 単語レベル, 音節レベル, SentencePiece のトークン化を, より小さなデータセットで実験し, 下流の性能に及ぼすトークン化の影響について検討した。
論文 参考訳(メタデータ) (2021-01-24T03:06:34Z) - A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences [21.43163704217968]
既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
論文 参考訳(メタデータ) (2020-10-17T06:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。