論文の概要: An Augmented Translation Technique for low Resource language pair:
Sanskrit to Hindi translation
- arxiv url: http://arxiv.org/abs/2006.08332v1
- Date: Tue, 9 Jun 2020 17:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 14:53:23.870789
- Title: An Augmented Translation Technique for low Resource language pair:
Sanskrit to Hindi translation
- Title(参考訳): 低資源言語対のための拡張翻訳技術:サンスクリットからヒンディー語への翻訳
- Authors: Rashi Kumar and Piyush Jha and Vineet Sahula
- Abstract要約: 本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。
サンスクリット語からヒンディー語への翻訳では、データが不足しているのと同じアーキテクチャがテストされている。
データストレージのメモリ使用量を削減するため,単語埋め込みの次元化を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Machine Translation (NMT) is an ongoing technique for Machine
Translation (MT) using enormous artificial neural network. It has exhibited
promising outcomes and has shown incredible potential in solving challenging
machine translation exercises. One such exercise is the best approach to
furnish great MT to language sets with a little preparing information. In this
work, Zero Shot Translation (ZST) is inspected for a low resource language
pair. By working on high resource language pairs for which benchmarks are
available, namely Spanish to Portuguese, and training on data sets
(Spanish-English and English-Portuguese) we prepare a state of proof for ZST
system that gives appropriate results on the available data. Subsequently the
same architecture is tested for Sanskrit to Hindi translation for which data is
sparse, by training the model on English-Hindi and Sanskrit-English language
pairs. In order to prepare and decipher with ZST system, we broaden the
preparation and interpretation pipelines of NMT seq2seq model in tensorflow,
incorporating ZST features. Dimensionality reduction of word embedding is
performed to reduce the memory usage for data storage and to achieve a faster
training and translation cycles. In this work existing helpful technology has
been utilized in an imaginative manner to execute our NLP issue of Sanskrit to
Hindi translation. A Sanskrit-Hindi parallel corpus of 300 is constructed for
testing. The data required for the construction of parallel corpus has been
taken from the telecasted news, published on Department of Public Information,
state government of Madhya Pradesh, India website.
- Abstract(参考訳): ニューラル・マシーン・トランスレーション(Neural Machine Translation, NMT)は, 巨大な人工ニューラルネットワークを用いた機械翻訳(MT)技術である。
有望な成果を示し、挑戦的な機械翻訳演習の解決に素晴らしい可能性を示している。
そのようなエクササイズの1つは、ちょっとした準備情報のある言語セットに優れたMTを提供するための最良のアプローチです。
本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。
ベンチマークが利用可能な高リソース言語ペア、すなわちスペイン語からポルトガル語、データセット(スペイン語と英語とポルトガル語)のトレーニングを行うことで、利用可能なデータに対して適切な結果を与えるZSTシステムの証明状態を作成する。
その後、サンスクリット語からヒンディー語への翻訳で同じアーキテクチャがテストされ、アングロ・ヒンディー語とサンスクリット・英語のペアでモデルを訓練する。
そこで我々は,ZSTシステムを用いて,NMT seq2seqモデルの準備と解釈パイプラインをテンソルフローで拡張し,ZST特徴を取り入れた。
データストレージのメモリ使用量を削減し、より高速なトレーニングおよび翻訳サイクルを実現するため、単語埋め込みの次元化を行う。
本研究では,サンスクリットからヒンディー語への翻訳において,既存の有用な技術を用いてNLP問題を実行する。
Sanskrit-Hindi並列コーパス300がテストのために構築されている。
パラレルコーパスの構築に必要なデータは、インドのマディヤ・プラデーシュ州政府公共情報部(英語版)のウェブサイトで公表されたテレビ放送されたニュースから取られた。
関連論文リスト
- Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Hindi to English: Transformer-Based Neural Machine Translation [0.0]
我々は,インド語ヒンディー語から英語への翻訳のためにトランスフォーマーモデルを訓練し,機械翻訳(NMT)システムを開発した。
トレーニングデータを増強し、語彙を作成するために、バックトランスレーションを実装した。
これにより、IIT Bombay English-Hindi Corpusのテストセットで、最先端のBLEUスコア24.53を達成することができました。
論文 参考訳(メタデータ) (2023-09-23T00:00:09Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Improving English to Sinhala Neural Machine Translation using
Part-of-Speech Tag [1.1470070927586016]
スリランカのほとんどの人は英語を正しく読めない。
現地の人々間で情報を共有するために、英語コンテンツを現地語に翻訳する、という大きな要件がある。
論文 参考訳(メタデータ) (2022-02-17T19:45:50Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。