論文の概要: PICT@DravidianLangTech-ACL2022: Neural Machine Translation On Dravidian
Languages
- arxiv url: http://arxiv.org/abs/2204.09098v1
- Date: Tue, 19 Apr 2022 19:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 14:16:17.072288
- Title: PICT@DravidianLangTech-ACL2022: Neural Machine Translation On Dravidian
Languages
- Title(参考訳): PICT@DravidianLangTech-ACL2022: ドラヴィディア語のニューラルネットワーク翻訳
- Authors: Aditya Vyawahare, Rahul Tangsali, Aditya Mandke, Onkar Litake, Dipali
Kadam
- Abstract要約: 以下5つの言語対についてニューラルマシン翻訳を行った。
5つの言語ペアのデータセットは、さまざまな翻訳モデルのトレーニングに使用された。
モノリンガルコーパスを含むいくつかのモデルに対して、バックトランスレーションを実装した。
- 参考スコア(独自算出の注目度): 1.0066310107046081
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a summary of the findings that we obtained based on the
shared task on machine translation of Dravidian languages. We stood first in
three of the five sub-tasks which were assigned to us for the main shared task.
We carried out neural machine translation for the following five language
pairs: Kannada to Tamil, Kannada to Telugu, Kannada to Malayalam, Kannada to
Sanskrit, and Kannada to Tulu. The datasets for each of the five language pairs
were used to train various translation models, including Seq2Seq models such as
LSTM, bidirectional LSTM, Conv2Seq, and training state-of-the-art as
transformers from scratch, and fine-tuning already pre-trained models. For some
models involving monolingual corpora, we implemented backtranslation as well.
These models' accuracy was later tested with a part of the same dataset using
BLEU score as an evaluation metric.
- Abstract(参考訳): 本稿では,dravidian言語の機械翻訳に関する共通タスクに基づいて得られた知見の概要について述べる。
私たちは、メインの共有タスクに割り当てられた5つのサブタスクのうち3つで最初に立ちました。
カナダはタミル語、カナダはテルグ語、カナダはマラヤラム語、カナダはサンスクリット語、カナダはトゥルー語である。
5つの言語ペアのデータセットは、LSTM、双方向LSTM、Conv2SeqといったSeq2Seqモデルや、スクラッチから変換器としての最先端のトレーニング、すでにトレーニング済みのモデルなど、さまざまな翻訳モデルのトレーニングに使用された。
単言語コーパスを含むいくつかのモデルでは、逆翻訳も実装した。
これらのモデルの精度は、後にBLEUスコアを評価指標として、同じデータセットの一部でテストされた。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Investigating Code-Mixed Modern Standard Arabic-Egyptian to English
Machine Translation [6.021269454707625]
コード混在の現代標準アラビア語とエジプト・アラビア語(MSAEA)を英語に調査する。
我々は、(i)標準のエンドツーエンドシーケンス・ツー・シーケンス(S2S)変換器と(ii)事前訓練されたS2S言語モデル(LM)を用いて、異なる条件下でモデルを開発する。
我々は、スクラッチから訓練されたS2Sモデルと様々なアラビア方言のデータに基づいて微調整されたLMを用いて、MSA-EN並列データのみを用いて、合理的な性能を得ることができる。
論文 参考訳(メタデータ) (2021-05-28T03:38:35Z) - Exploring Text-to-Text Transformers for English to Hinglish Machine
Translation with Synthetic Code-Mixing [19.19256927651015]
モノリンガル英語のテキストをHinglish(コード混合ヒンディー語と英語)に変換するモデルを記述する。
事前訓練された言語モデルの最近の成功を踏まえ、トランスフォーマーベースのエンコーダデコーダモデルの実用性についても検証する。
私たちのモデルは、英語と英語の公式共有タスクの全体的なランキングで第一位です。
論文 参考訳(メタデータ) (2021-05-18T19:50:25Z) - Hate-Alert@DravidianLangTech-EACL2021: Ensembling strategies for
Transformer-based Offensive language Detection [5.139400587753555]
ソーシャルメディアは、しばしば異なる種類の攻撃的コンテンツの繁殖地として機能する。
我々は、異なるトランスモデルを徹底的に探索し、異なるモデルを統合する遺伝的アルゴリズムも提供する。
タミル語では第1位,カンナダ語では第2位,マラヤラム語のサブタスクでは第1位を確保した。
論文 参考訳(メタデータ) (2021-02-19T18:35:38Z) - indicnlp@kgp at DravidianLangTech-EACL2021: Offensive Language
Identification in Dravidian Languages [0.0]
この論文は、チーム indicnlp@kgp の EACL 2021 共有タスク「ドラヴィディアン言語における言語識別効果」への提出を提示する。
このタスクは、異なる攻撃的コンテンツタイプを3つのコード混合Dravidian言語データセットに分類することを目的としている。
マラヤラム英語,タミル英語,カナダ英語のデータセットでは,平均F1スコア0.97,0.77,0.72が達成された。
論文 参考訳(メタデータ) (2021-02-14T13:24:01Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Towards Computational Linguistics in Minangkabau Language: Studies on
Sentiment Analysis and Machine Translation [5.381004207943597]
我々は、感情分析と、TwitterとWikipediaから収集、構築された機械翻訳の2つのMinangkabauコーパスをリリースする。
我々は,従来の機械学習とLSTMやTransformerといったシーケンス・ツー・シーケンスモデルを用いて,ミナンカバウ語で最初の計算言語学を行う。
論文 参考訳(メタデータ) (2020-09-19T22:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。