論文の概要: Building the Language Resource for a Cebuano-Filipino Neural Machine
Translation System
- arxiv url: http://arxiv.org/abs/2110.15716v1
- Date: Tue, 5 Oct 2021 23:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-07 12:02:16.699990
- Title: Building the Language Resource for a Cebuano-Filipino Neural Machine
Translation System
- Title(参考訳): cebuano-filipinoニューラルマシン翻訳システムのための言語リソースの構築
- Authors: Kristine Mae Adlaon and Nelson Marcos
- Abstract要約: 本稿では,CebuanoとFilipinoの平行コーパスを,聖書テキストとWebという2つの異なるドメインから構築する取り組みについて述べる。
聖書資料では、動詞のサブワード単位翻訳と名詞のコピー可能なアプローチが翻訳の不整合を正すために適用された。
Wikipediaでは、ソースとターゲット言語の両方から、一般的に発生するトピックセグメントが抽出された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parallel corpus is a critical resource in machine learning-based translation.
The task of collecting, extracting, and aligning texts in order to build an
acceptable corpus for doing the translation is very tedious most especially for
low-resource languages. In this paper, we present the efforts made to build a
parallel corpus for Cebuano and Filipino from two different domains: biblical
texts and the web. For the biblical resource, subword unit translation for
verbs and copy-able approach for nouns were applied to correct inconsistencies
in the translation. This correction mechanism was applied as a preprocessing
technique. On the other hand, for Wikipedia being the main web resource,
commonly occurring topic segments were extracted from both the source and the
target languages. These observed topic segments are unique in 4 different
categories. The identification of these topic segments may be used for the
automatic extraction of sentences. A Recurrent Neural Network was used to
implement the translation using OpenNMT sequence modeling tool in TensorFlow.
The two different corpora were then evaluated by using them as two separate
inputs in the neural network. Results have shown a difference in BLEU scores in
both corpora.
- Abstract(参考訳): Parallel corpusは機械学習ベースの翻訳において重要なリソースである。
翻訳を行うための許容されたコーパスを構築するためにテキストを収集、抽出、調整する作業は、特に低リソース言語では非常に面倒である。
本稿では,Cebuano と Filipino の並列コーパスを,聖書テキストと Web という2つの異なるドメインから構築する取り組みについて述べる。
聖書の資料では、動詞のサブワード単位翻訳と名詞のコピー可能アプローチを適用し、翻訳の不一致を正した。
この補正機構を前処理として適用した。
一方、ウィキペディアがメインのウェブリソースであるためには、ソースとターゲット言語の両方から一般的に発生するトピックセグメントが抽出される。
これらのトピックセグメントは、4つの異なるカテゴリでユニークである。
これらのトピックセグメントの識別は、文の自動抽出に使用することができる。
リカレントニューラルネットワークは、TensorFlowでOpenNMTシーケンスモデリングツールを使用して翻訳を実装した。
2つの異なるコーパスをニューラルネットワーク内の2つの別々の入力として評価した。
その結果,両コーパスにおけるBLEUスコアの差が認められた。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Sentence Alignment with Parallel Documents Helps Biomedical Machine
Translation [0.5430741734728369]
本研究は、新しい教師なし文アライメント手法を示し、生体医学的ニューラルネットワーク翻訳(NMT)システムの訓練における特徴を探求する。
二言語間単語の類似性を評価するために,二言語間単語埋め込みの構築には単純かつ効果的な手法を用いる。
提案手法は1対1および多対多のケースで高い精度を達成した。
論文 参考訳(メタデータ) (2021-04-17T16:09:30Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Neural Simultaneous Speech Translation Using Alignment-Based Chunking [4.224809458327515]
同時機械翻訳では、ソース単語の連続ストリームが与えられた部分翻訳をいつ生成するかを決定することが目的である。
入力や出力語の生成を継続する際の動的決定を動的に行うニューラルネットワーク翻訳(NMT)モデルを提案する。
We results on the IWSLT 2020 English-to-German task outperform a wait-k baseline by 2.6 to 3.7% BLEU absolute。
論文 参考訳(メタデータ) (2020-05-29T10:20:48Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z) - Urdu-English Machine Transliteration using Neural Networks [0.0]
本稿では,教師なし言語に依存しない予測最大化(EM)に基づく翻訳手法を提案する。
システムは、パラレルコーパスからパターンと語彙外単語を学習し、明示的に音訳コーパスで学習する必要はない。
論文 参考訳(メタデータ) (2020-01-12T17:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。