論文の概要: Statistical Machine Translation for Indic Languages
- arxiv url: http://arxiv.org/abs/2301.00539v1
- Date: Mon, 2 Jan 2023 06:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 14:53:17.385751
- Title: Statistical Machine Translation for Indic Languages
- Title(参考訳): indic 言語のための統計的機械翻訳
- Authors: Sudhansu Bala Das, Divyajoti Panda, Tapas Kumar Mishra, Bidyut Kr.
Patra
- Abstract要約: 本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
- 参考スコア(独自算出の注目度): 1.8899300124593648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Translation (MT) system generally aims at automatic representation of
source language into target language retaining the originality of context using
various Natural Language Processing (NLP) techniques. Among various NLP
methods, Statistical Machine Translation(SMT). SMT uses probabilistic and
statistical techniques to analyze information and conversion. This paper
canvasses about the development of bilingual SMT models for translating English
to fifteen low-resource Indian Languages (ILs) and vice versa. At the outset,
all 15 languages are briefed with a short description related to our
experimental need. Further, a detailed analysis of Samanantar and OPUS dataset
for model building, along with standard benchmark dataset (Flores-200) for
fine-tuning and testing, is done as a part of our experiment. Different
preprocessing approaches are proposed in this paper to handle the noise of the
dataset. To create the system, MOSES open-source SMT toolkit is explored.
Distance reordering is utilized with the aim to understand the rules of grammar
and context-dependent adjustments through a phrase reordering categorization
framework. In our experiment, the quality of the translation is evaluated using
standard metrics such as BLEU, METEOR, and RIBES
- Abstract(参考訳): 機械翻訳(MT)システムは一般的に,様々な自然言語処理(NLP)技術を用いて,文脈の独創性を保持する対象言語へのソースコードの自動表現を目標とする。
様々なNLP手法の中で、統計機械翻訳(SMT)がある。
SMTは確率的および統計的手法を用いて情報と変換を分析する。
本稿では、英語を15の低リソースインド語(IL)に翻訳するためのバイリンガルSMTモデルの開発とその逆について論じる。
当初、15の言語はすべて、実験的なニーズに関する短い説明で説明されています。
さらに、モデル構築のためのSamanantarデータセットとOPUSデータセットの詳細な分析と、微調整とテストのための標準ベンチマークデータセット(Flores-200)を実験の一環として実施する。
本稿では,データセットのノイズに対処するため,様々な前処理手法を提案する。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
単語の並べ替え分類フレームワークを用いて、文法の規則や文脈に依存した調整を理解するために、距離の並べ替えを利用する。
実験では,BLEU, METEOR, RIBESなどの標準指標を用いて翻訳の質を評価する。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Active Learning for Neural Machine Translation [0.0]
NMTツールキットのJoey NMTにActive Learningと呼ばれるテクニックを組み込んで、低リソース言語翻訳の十分な精度と堅牢な予測を行った。
この研究は、トランスフォーマーベースのNMTシステム、ベースラインモデル(BM)、フルトレーニングモデル(FTM)、アクティブラーニング最小信頼ベースモデル(ALLCM)、アクティブラーニングマージンサンプリングベースモデル(ALMSM)を用いて、英語をヒンディー語に翻訳する。
論文 参考訳(メタデータ) (2022-12-30T17:04:01Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Automatic Machine Translation Evaluation in Many Languages via Zero-Shot
Paraphrasing [11.564158965143418]
我々は,機械翻訳評価の課題を,シーケンス・ツー・シーケンス・パラフレーズを用いたスコアリング機械翻訳出力の1つとして捉えた。
我々は,パラフレーズ処理をゼロショット翻訳タスクとして扱う多言語NMTシステムとして,パラフレーズを訓練することを提案する。
我々の手法は単純で直感的で、訓練には人間の判断を必要としない。
論文 参考訳(メタデータ) (2020-04-30T03:32:34Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。