論文の概要: Multilingual k-Nearest-Neighbor Machine Translation
- arxiv url: http://arxiv.org/abs/2310.14644v1
- Date: Mon, 23 Oct 2023 07:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 21:48:33.239694
- Title: Multilingual k-Nearest-Neighbor Machine Translation
- Title(参考訳): 多言語k-Nearest-Neighbor機械翻訳
- Authors: David Stap, Christof Monz
- Abstract要約: k-nearest-neighbor 機械翻訳は機械翻訳の品質を著しく向上させた。
我々は,5.3倍の高速化を実現し,その4分の1の大きさの多言語データストアを作成可能であることを示す。
- 参考スコア(独自算出の注目度): 6.035175914634661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: k-nearest-neighbor machine translation has demonstrated remarkable
improvements in machine translation quality by creating a datastore of cached
examples. However, these improvements have been limited to high-resource
language pairs, with large datastores, and remain a challenge for low-resource
languages. In this paper, we address this issue by combining representations
from multiple languages into a single datastore. Our results consistently
demonstrate substantial improvements not only in low-resource translation
quality (up to +3.6 BLEU), but also for high-resource translation quality (up
to +0.5 BLEU). Our experiments show that it is possible to create multilingual
datastores that are a quarter of the size, achieving a 5.3x speed improvement,
by using linguistic similarities for datastore creation.
- Abstract(参考訳): k-nearest-neighborマシン翻訳は、キャッシュされたサンプルのデータストアを作成することにより、機械翻訳の品質が著しく向上した。
しかし、これらの改善は大規模なデータストアを持つ高リソースの言語ペアに限られており、低リソースの言語では依然として課題である。
本稿では,複数の言語からの表現を1つのデータストアに組み合わせることで,この問題に対処する。
その結果,低リソースの翻訳品質(+3.6BLEUまで)だけでなく,高リソースの翻訳品質(+0.5BLEUまで)も大幅に向上した。
実験により,データストア作成に言語的類似性を用いることで,4分の1の大きさの多言語データストアを作成でき,5.3倍の高速化が達成できることを示した。
関連論文リスト
- Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language [34.54405113575568]
1つの高品質なソース言語から機械翻訳されたテキストは、多言語モデルの事前学習に大きく貢献する。
クアトロLLMは、クローズドデータを用いて訓練された最先端の多言語モデルと一致し、より優れることを示す。
私たちは、hf.co/britllm/CuatroLLMでオープンライセンスの下で、コーパス、モデル、トレーニングパイプラインをリリースしています。
論文 参考訳(メタデータ) (2024-10-31T14:09:50Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Bilex Rx: Lexical Data Augmentation for Massively Multilingual Machine
Translation [33.6064740446337]
この研究は、この問題に対処するための安価で豊富な資源であるバイリンガル・レキシカを探求する。
我々は,ウェブクローリングテキストを用いた200言語翻訳モデルを用いて,実世界の辞書におけるバイリンガル辞書の有効性を検証した。
筆者らは,(1)語彙データ拡張を用いて,教師なし翻訳の性能向上を実証し,(2)データ拡張のいくつかの家系を比較し,それらが類似した改善をもたらすことを示すとともに,(3)より大きく,ノイズの多いレキシカよりも慎重にキュレートされたレキシカの重要性を示す。
論文 参考訳(メタデータ) (2023-03-27T14:54:43Z) - Investigating the Translation Performance of a Large Multilingual
Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。
本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文 参考訳(メタデータ) (2023-03-03T13:23:42Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Back-translation for Large-Scale Multilingual Machine Translation [2.8747398859585376]
本稿では,多言語間の共通表現がより優れた多言語翻訳性能をもたらすという仮説を用いて,単一の多言語翻訳システムを構築することを目的とする。
我々は、バイリンガル翻訳から多言語翻訳まで、さまざまなバック翻訳手法の探索を拡大する。
驚いたことに、語彙の小さい方がパフォーマンスが良くなり、モノリンガルの英語データも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-17T18:33:15Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。