論文の概要: Neural machine translation system for Lezgian, Russian and Azerbaijani languages
- arxiv url: http://arxiv.org/abs/2410.05472v1
- Date: Mon, 7 Oct 2024 20:08:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 18:28:00.611079
- Title: Neural machine translation system for Lezgian, Russian and Azerbaijani languages
- Title(参考訳): レズギア語、ロシア語、アゼルバイジャン語に対するニューラル機械翻訳システム
- Authors: Alidar Asvarov, Andrey Grabovoy,
- Abstract要約: 我々は、ロシア語、アゼルバイジャン語および絶滅危惧言語間の翻訳のための最初のニューラルマシン翻訳システムをリリースした。
複数の実験により、トレーニング言語ペアとデータドメインの異なるセットが、結果の翻訳品質にどのように影響するかを特定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We release the first neural machine translation system for translation between Russian, Azerbaijani and the endangered Lezgian languages, as well as monolingual and parallel datasets collected and aligned for training and evaluating the system. Multiple experiments are conducted to identify how different sets of training language pairs and data domains can influence the resulting translation quality. We achieve BLEU scores of 26.14 for Lezgian-Azerbaijani, 22.89 for Azerbaijani-Lezgian, 29.48 for Lezgian-Russian and 24.25 for Russian-Lezgian pairs. The quality of zero-shot translation is assessed on a Large Language Model, showing its high level of fluency in Lezgian. However, the model often refuses to translate, justifying itself with its incompetence. We contribute our translation model along with the collected parallel and monolingual corpora and sentence encoder for the Lezgian language.
- Abstract(参考訳): 我々は、ロシア語、アゼルバイジャン語、および絶滅危惧言語間の翻訳のための最初のニューラルマシン翻訳システムをリリースした。
複数の実験により、トレーニング言語ペアとデータドメインの異なるセットが、結果の翻訳品質にどのように影響するかを特定する。
BLEUスコアは、レズビア・アゼルバイジャン語で26.14点、アゼルバイジャン・レズギア語で22.89点、レズビア・ロシア語で29.48点、ロシア・レズビア語で24.25点である。
ゼロショット翻訳の質はLarge Language Modelで評価され、レズジアン語では高い流布度を示している。
しかし、このモデルは翻訳を拒み、その無能さを正当化する。
並列コーパスと単言語コーパスと文エンコーダを併用した翻訳モデルを構築した。
関連論文リスト
- A Multilingual Sentiment Lexicon for Low-Resource Language Translation using Large Languages Models and Explainable AI [0.0]
南アフリカとDRCは、ズールー語、セペディ語、アフリカーンス語、フランス語、英語、ツィルバ語などの言語と共に複雑な言語景観を呈している。
この研究はフランス語とツィルバ語用に設計された多言語辞書を開発し、英語、アフリカーンス語、セペディ語、ズールー語への翻訳を含むように拡張された。
総合的なテストコーパスは、感情を予測するためにトレーニングされた機械学習モデルを使用して、翻訳と感情分析タスクをサポートするために作成される。
論文 参考訳(メタデータ) (2024-11-06T23:41:18Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - The first neural machine translation system for the Erzya language [0.0951828574518325]
絶滅危惧言語エルジーア語とロシア語を翻訳するための最初のニューラルマシン翻訳システムを提案する。
BLEUのスコアはエルジーア語とロシア語への翻訳で17と19であり、翻訳の半数以上が母語話者によって受け入れられていると評価されている。
収集したテキストコーパス、新しい言語識別モデル、Erzya言語に適応した多言語文エンコーダとともに、翻訳モデルをリリースする。
論文 参考訳(メタデータ) (2022-09-19T22:21:37Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - Slovene SuperGLUE Benchmark: Translation and Evaluation [0.0]
我々は,スロヴェニアの機械と人間を併用したSuperGLUEベンチマークを提案する。
我々は、翻訳されたデータセットを、モノリンガル、クロスリンガル、マルチリンガルの3つのモードで評価する。
論文 参考訳(メタデータ) (2022-02-10T12:46:06Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Low-Resource Neural Machine Translation for Southern African Languages [0.0]
低リソースのアフリカの言語は、データ不足のため、ニューラルマシン翻訳の進歩から完全には恩恵を受けていない。
この課題に動機づけられて、3つのバントゥー語(shona、isixhosa、isizulu)と英語でゼロショット学習、転送学習、多言語学習を比較した。
論文 参考訳(メタデータ) (2021-04-01T09:48:13Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。