論文の概要: A Survey on Low-Resource Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2107.04239v1
- Date: Fri, 9 Jul 2021 06:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:58:49.141960
- Title: A Survey on Low-Resource Neural Machine Translation
- Title(参考訳): 低リソースニューラルマシン翻訳に関する調査研究
- Authors: Rui Wang and Xu Tan and Renqian Luo and Tao Qin and Tie-Yan Liu
- Abstract要約: 我々は、関連する作品を、使用した補助データに基づいて3つのカテゴリに分類する。
私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
- 参考スコア(独自算出の注目度): 106.51056217748388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural approaches have achieved state-of-the-art accuracy on machine
translation but suffer from the high cost of collecting large scale parallel
data. Thus, a lot of research has been conducted for neural machine translation
(NMT) with very limited parallel data, i.e., the low-resource setting. In this
paper, we provide a survey for low-resource NMT and classify related works into
three categories according to the auxiliary data they used: (1) exploiting
monolingual data of source and/or target languages, (2) exploiting data from
auxiliary languages, and (3) exploiting multi-modal data. We hope that our
survey can help researchers to better understand this field and inspire them to
design better algorithms, and help industry practitioners to choose appropriate
algorithms for their applications.
- Abstract(参考訳): ニューラルアプローチは機械翻訳における最先端の精度を達成したが、大規模並列データ収集のコストが高い。
したがって、非常に限られた並列データ、すなわち低リソース設定を持つニューラルマシン翻訳(nmt)について多くの研究が行われている。
本稿では,低リソースNMTに関する調査を,(1)ソースおよび/またはターゲット言語の単言語データの活用,(2)補助言語からのデータの活用,(3)マルチモーダルデータの活用の3つのカテゴリに分類する。
私たちの調査は、研究者がこの分野をより深く理解し、より良いアルゴリズムを設計するように促し、業界関係者がアプリケーションに適したアルゴリズムを選択するのに役立つことを期待しています。
関連論文リスト
- Importance-Aware Data Augmentation for Document-Level Neural Machine
Translation [51.74178767827934]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、一貫性と結合性の両方を持つ翻訳を生成することを目的としている。
長い入力長とトレーニングデータの可用性が限られているため、DocNMTはデータスパシティーの課題に直面していることが多い。
本稿では,隠れ状態のノルムとトレーニング勾配から推定したトークン重要度情報に基づいてトレーニングデータを拡張するDocNMTのための新しいIADAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-27T09:27:47Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Replicable Benchmarking of Neural Machine Translation (NMT) on
Low-Resource Local Languages in Indonesia [4.634142034755327]
本研究は,インドネシアの4つの低リソースローカル言語(ジャワ語,スンダ語,ミナンカバウ語,バリンセ語)を対象としたNMTシステムの訓練を包括的に分析する。
我々の研究は、限られた計算資源とテキストデータにもかかわらず、いくつかのNMTシステムが競合性能を達成することを実証している。
論文 参考訳(メタデータ) (2023-11-02T05:27:48Z) - Textual Augmentation Techniques Applied to Low Resource Machine
Translation: Case of Swahili [1.9686054517684888]
機械翻訳において、世界中の言語ペアのほとんどは、ほとんど並列データがないため、低リソースと見なされている。
テキスト分類タスクで広く使われている3つの単純なデータ拡張手法を研究・適用する。
多様なデータセットでより広範な実験を行う場合には、これらの手法をニューラルネットワーク翻訳に使用する可能性がある。
論文 参考訳(メタデータ) (2023-06-12T20:43:24Z) - Adapting to the Low-Resource Double-Bind: Investigating Low-Compute
Methods on Low-Resource African Languages [0.6833698896122186]
アフリカの言語のデータ不足問題に追加された高い計算資源へのアクセス。
低リソースのアフリカNLPに対して,言語アダプタをコスト効率の良いアプローチとして評価する。
これにより、言語アダプタの能力に関するさらなる実験と探索の扉が開ける。
論文 参考訳(メタデータ) (2023-03-29T19:25:43Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Exploiting Neural Query Translation into Cross Lingual Information
Retrieval [49.167049709403166]
既存のCLIRシステムは、高度ニューラルネットワーク翻訳(NMT)ではなく、統計ベースの機械翻訳(SMT)を主に活用している
本稿では,ユーザクリックスルーデータに基づいてクエリ変換ペアを抽出する新しいデータ拡張手法を提案する。
実験結果から,提案手法は強いベースラインよりも高い検索精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-10-26T15:28:19Z) - Multi-task Learning for Multilingual Neural Machine Translation [32.81785430242313]
本稿では,bitextデータ上での翻訳タスクと,モノリンガルデータ上での2つの認知タスクを併用してモデルを学習するマルチタスク学習フレームワークを提案する。
提案手法は,高リソース言語と低リソース言語の両方の翻訳品質を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-10-06T06:54:12Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。