論文の概要: An approach for mistranslation removal from popular dataset for Indic MT
Task
- arxiv url: http://arxiv.org/abs/2401.06398v1
- Date: Fri, 12 Jan 2024 06:37:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:22:17.761328
- Title: An approach for mistranslation removal from popular dataset for Indic MT
Task
- Title(参考訳): indic mtタスクのためのポピュラーデータセットからの誤翻訳除去手法
- Authors: Sudhansu Bala Das, Leo Raphael Rodrigues, Tapas Kumar Mishra, Bidyut
Kr. Patra
- Abstract要約: トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
- 参考スコア(独自算出の注目度): 5.4755933832880865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The conversion of content from one language to another utilizing a computer
system is known as Machine Translation (MT). Various techniques have come up to
ensure effective translations that retain the contextual and lexical
interpretation of the source language. End-to-end Neural Machine Translation
(NMT) is a popular technique and it is now widely used in real-world MT
systems. Massive amounts of parallel datasets (sentences in one language
alongside translations in another) are required for MT systems. These datasets
are crucial for an MT system to learn linguistic structures and patterns of
both languages during the training phase. One such dataset is Samanantar, the
largest publicly accessible parallel dataset for Indian languages (ILs). Since
the corpus has been gathered from various sources, it contains many incorrect
translations. Hence, the MT systems built using this dataset cannot perform to
their usual potential. In this paper, we propose an algorithm to remove
mistranslations from the training corpus and evaluate its performance and
efficiency. Two Indic languages (ILs), namely, Hindi (HIN) and Odia (ODI) are
chosen for the experiment. A baseline NMT system is built for these two ILs,
and the effect of different dataset sizes is also investigated. The quality of
the translations in the experiment is evaluated using standard metrics such as
BLEU, METEOR, and RIBES. From the results, it is observed that removing the
incorrect translation from the dataset makes the translation quality better. It
is also noticed that, despite the fact that the ILs-English and English-ILs
systems are trained using the same corpus, ILs-English works more effectively
across all the evaluation metrics.
- Abstract(参考訳): コンピュータシステムを利用してある言語から別の言語へのコンテンツの変換を機械翻訳(mt)と呼ぶ。
ソース言語の文脈的および語彙的解釈を保持する効果的な翻訳を保証するために、様々な技術が生まれている。
エンドツーエンドニューラルネットワーク変換(NMT)は一般的な技術であり、現在では現実世界のMTシステムで広く使われている。
MTシステムには、大量の並列データセット(ある言語で別の言語で翻訳する)が要求される。
これらのデータセットは、MTシステムが訓練期間中に両方の言語の言語構造とパターンを学ぶために不可欠である。
そのようなデータセットの1つがsamanantarであり、インド言語(ils)の公開アクセス可能な最大の並列データセットである。
コーパスは様々な情報源から収集されているため、多くの誤訳が含まれている。
したがって、このデータセットを用いて構築されたMTシステムは、通常の潜在能力を発揮できない。
本稿では,学習コーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験にはヒンディー語 (hin) とオディア語 (odi) の2つのindic language (ils) が選ばれた。
これら2つのILに対してベースラインNMTシステムを構築し,異なるデータセットサイズの影響についても検討した。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
その結果,データセットから誤った翻訳を除去することで,翻訳品質が向上することが確認された。
また、ils- english と english-ils のシステムが同じコーパスを使って訓練されているにもかかわらず、ils-english はすべての評価指標においてより効果的に機能する。
関連論文リスト
- Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文 参考訳(メタデータ) (2023-01-02T06:23:12Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Selecting Backtranslated Data from Multiple Sources for Improved Neural
Machine Translation [8.554761233491236]
我々は、ルールベース、フレーズベース統計システム、ニューラルMTシステムで翻訳されたデータが、新しいMTシステムに与える影響を分析する。
我々は、高品質なMTシステムを維持しながら、使用するデータ量を減らすために、異なるデータ選択戦略を利用する。
論文 参考訳(メタデータ) (2020-05-01T10:50:53Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。