Fugu-MT 論文翻訳(概要): Statistical Machine Translation for Indic Languages

論文の概要: Statistical Machine Translation for Indic Languages

arxiv url: http://arxiv.org/abs/2301.00539v1
Date: Mon, 2 Jan 2023 06:23:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-03 14:53:17.385751
Title: Statistical Machine Translation for Indic Languages
Title（参考訳）: indic 言語のための統計的機械翻訳
Authors: Sudhansu Bala Das, Divyajoti Panda, Tapas Kumar Mishra, Bidyut Kr. Patra
Abstract要約: 本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
参考スコア（独自算出の注目度）: 1.8899300124593648
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine Translation (MT) system generally aims at automatic representation of source language into target language retaining the originality of context using various Natural Language Processing (NLP) techniques. Among various NLP methods, Statistical Machine Translation(SMT). SMT uses probabilistic and statistical techniques to analyze information and conversion. This paper canvasses about the development of bilingual SMT models for translating English to fifteen low-resource Indian Languages (ILs) and vice versa. At the outset, all 15 languages are briefed with a short description related to our experimental need. Further, a detailed analysis of Samanantar and OPUS dataset for model building, along with standard benchmark dataset (Flores-200) for fine-tuning and testing, is done as a part of our experiment. Different preprocessing approaches are proposed in this paper to handle the noise of the dataset. To create the system, MOSES open-source SMT toolkit is explored. Distance reordering is utilized with the aim to understand the rules of grammar and context-dependent adjustments through a phrase reordering categorization framework. In our experiment, the quality of the translation is evaluated using standard metrics such as BLEU, METEOR, and RIBES
Abstract（参考訳）: 機械翻訳(MT)システムは一般的に,様々な自然言語処理(NLP)技術を用いて,文脈の独創性を保持する対象言語へのソースコードの自動表現を目標とする。様々なNLP手法の中で、統計機械翻訳(SMT)がある。 SMTは確率的および統計的手法を用いて情報と変換を分析する。本稿では、英語を15の低リソースインド語(IL)に翻訳するためのバイリンガルSMTモデルの開発とその逆について論じる。当初、15の言語はすべて、実験的なニーズに関する短い説明で説明されています。さらに、モデル構築のためのSamanantarデータセットとOPUSデータセットの詳細な分析と、微調整とテストのための標準ベンチマークデータセット(Flores-200)を実験の一環として実施する。本稿では,データセットのノイズに対処するため,様々な前処理手法を提案する。このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。単語の並べ替え分類フレームワークを用いて、文法の規則や文脈に依存した調整を理解するために、距離の並べ替えを利用する。実験では,BLEU, METEOR, RIBESなどの標準指標を用いて翻訳の質を評価する。

関連論文リスト

Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文参考訳（メタデータ） (2024-07-18T15:20:31Z)
An approach for mistranslation removal from popular dataset for Indic MT Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文参考訳（メタデータ） (2024-01-12T06:37:19Z)
Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。 OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文参考訳（メタデータ） (2023-05-04T12:21:52Z)
Active Learning for Neural Machine Translation [0.0]
NMTツールキットのJoey NMTにActive Learningと呼ばれるテクニックを組み込んで、低リソース言語翻訳の十分な精度と堅牢な予測を行った。この研究は、トランスフォーマーベースのNMTシステム、ベースラインモデル(BM)、フルトレーニングモデル(FTM)、アクティブラーニング最小信頼ベースモデル(ALLCM)、アクティブラーニングマージンサンプリングベースモデル(ALMSM)を用いて、英語をヒンディー語に翻訳する。
論文参考訳（メタデータ） (2022-12-30T17:04:01Z)
FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文参考訳（メタデータ） (2022-10-01T05:02:04Z)
DivEMT: Neural Machine Translation Post-Editing Effort Across Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文参考訳（メタデータ） (2022-05-24T17:22:52Z)
Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文参考訳（メタデータ） (2020-10-07T03:57:54Z)
Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing [11.564158965143418]
我々は,機械翻訳評価の課題を,シーケンス・ツー・シーケンス・パラフレーズを用いたスコアリング機械翻訳出力の1つとして捉えた。我々は,パラフレーズ処理をゼロショット翻訳タスクとして扱う多言語NMTシステムとして,パラフレーズを訓練することを提案する。我々の手法は単純で直感的で、訓練には人間の判断を必要としない。
論文参考訳（メタデータ） (2020-04-30T03:32:34Z)
Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。 WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文参考訳（メタデータ） (2020-04-08T05:28:46Z)
Learning Contextualized Sentence Representations for Document-Level Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-30T03:38:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。