論文の概要: Revisiting Low Resource Status of Indian Languages in Machine
Translation
- arxiv url: http://arxiv.org/abs/2008.04860v2
- Date: Wed, 4 Nov 2020 09:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 11:27:45.681952
- Title: Revisiting Low Resource Status of Indian Languages in Machine
Translation
- Title(参考訳): 機械翻訳におけるインド語の低資源状態の再考
- Authors: Jerin Philip, Shashank Siripragada, Vinay P. Namboodiri, C.V. Jawahar
- Abstract要約: インド語の機械翻訳性能は、大規模多言語文整列コーパスとロバストベンチマークの欠如により妨げられている。
我々は、インド言語ニューラルマシン翻訳(NMT)システムのためのこのようなコーパスを得るために、自動化されたフレームワークを提供し、分析する。
- 参考スコア(独自算出の注目度): 43.62422999765863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indian language machine translation performance is hampered due to the lack
of large scale multi-lingual sentence aligned corpora and robust benchmarks.
Through this paper, we provide and analyse an automated framework to obtain
such a corpus for Indian language neural machine translation (NMT) systems. Our
pipeline consists of a baseline NMT system, a retrieval module, and an
alignment module that is used to work with publicly available websites such as
press releases by the government. The main contribution towards this effort is
to obtain an incremental method that uses the above pipeline to iteratively
improve the size of the corpus as well as improve each of the components of our
system. Through our work, we also evaluate the design choices such as the
choice of pivoting language and the effect of iterative incremental increase in
corpus size. Our work in addition to providing an automated framework also
results in generating a relatively larger corpus as compared to existing
corpora that are available for Indian languages. This corpus helps us obtain
substantially improved results on the publicly available WAT evaluation
benchmark and other standard evaluation benchmarks.
- Abstract(参考訳): インド語の機械翻訳性能は、大規模多言語文整列コーパスとロバストベンチマークの欠如により妨げられている。
本稿では,インド言語ニューラルマシン翻訳(nmt)システムのためのコーパスを得るための自動化フレームワークを提供し,分析する。
我々のパイプラインは、ベースラインNTTシステム、検索モジュール、政府によるプレスリリースなどの公開ウェブサイトと連携するために使用されるアライメントモジュールで構成されています。
この取り組みの主な貢献は、上記のパイプラインを使用してコーパスのサイズを反復的に改善し、システムの各コンポーネントを改善するインクリメンタルな方法を得ることである。
また,本研究を通じて,ピボット言語の選択や,コーパスサイズの反復的増加の影響など,設計上の選択も評価した。
自動化フレームワークの提供に加えて、インドの言語で利用可能な既存のコーパスに比べて、比較的大きなコーパスの生成も行っています。
このコーパスは,wat評価ベンチマークおよび他の標準評価ベンチマークにおいて,大幅に改良された結果を得るのに役立つ。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - NLPre: a revised approach towards language-centric benchmarking of Natural Language Preprocessing systems [2.141587359797428]
規則に基づく形態解析や辞書を頼りに、新しい解を十分に整合した前処理ツールキットと比較することは困難である。
GLUEベンチマークにインスパイアされたこの言語中心ベンチマークシステムは、複数のNLPreツールの包括的な評価を可能にする。
プロトタイプアプリケーションはポーランド語用に設定されており、完全に組み立てられたNLPre-PLベンチマークと統合されている。
論文 参考訳(メタデータ) (2024-03-07T14:07:00Z) - On Using Distribution-Based Compositionality Assessment to Evaluate
Compositional Generalisation in Machine Translation [10.840893953881652]
実世界の自然言語タスクにおける合成一般化を評価するためのベンチマークを開発することが重要である。
これは、Europarl翻訳コーパスをトレーニングとテストセットに分割し、テストセットが構成的一般化能力を必要とするようにすることで行われる。
これは、自然言語合成性ベンチマークを作成するための、完全に自動化された手順である。
論文 参考訳(メタデータ) (2023-11-14T15:37:19Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Sentiment-based Candidate Selection for NMT [2.580271290008534]
本稿では,機械翻訳(mt)候補選択プロセスに自動感情スコアを組み込むデコーダ側手法を提案する。
我々は、英語とスペイン語の感情分類器を訓練し、ビームサーチによるベースラインMTモデルによって生成されたn-best候補を用いて、原文の感情スコアと翻訳の絶対差を最小化する候補を選択する。
人間の評価結果から,パイプライン上に構築されたオープンソースのMTモデルと比較して,ベースライン翻訳は口語的,感情重大なソーステキストよりも正確であることが示唆された。
論文 参考訳(メタデータ) (2021-04-10T19:01:52Z) - Reference Language based Unsupervised Neural Machine Translation [108.64894168968067]
教師なしの神経機械翻訳は ほぼ完全に パラレルコーパスの呪いを和らげる
我々はUNMTのための新しい参照言語ベースのフレームワークであるRUNMTを提案し、参照言語はソースと並列コーパスを共有するのみである。
実験の結果,一つの補助言語のみを用いる強いベースラインよりもUNMTの品質が向上することが確認された。
論文 参考訳(メタデータ) (2020-04-05T08:28:08Z) - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation [37.04364877980479]
本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。
提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
論文 参考訳(メタデータ) (2019-12-26T01:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。