論文の概要: Pivot Language for Low-Resource Machine Translation
- arxiv url: http://arxiv.org/abs/2505.14553v2
- Date: Wed, 21 May 2025 13:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.369069
- Title: Pivot Language for Low-Resource Machine Translation
- Title(参考訳): 低リソース機械翻訳のためのPivot言語
- Authors: Abhimanyu Talwar, Julien Laasri,
- Abstract要約: 私たちはヒンディー語をネパール語を英語に翻訳する重要な言語として使用しています。
本稿では,ネパール語を英語に翻訳するための2つの手法について論じる。
- 参考スコア(独自算出の注目度): 0.276240219662896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Certain pairs of languages suffer from lack of a parallel corpus which is large in size and diverse in domain. One of the ways this is overcome is via use of a pivot language. In this paper we use Hindi as a pivot language to translate Nepali into English. We describe what makes Hindi a good candidate for the pivot. We discuss ways in which a pivot language can be used, and use two such approaches - the Transfer Method (fully supervised) and Backtranslation (semi-supervised) - to translate Nepali into English. Using the former, we are able to achieve a devtest Set SacreBLEU score of 14.2, which improves the baseline fully supervised score reported by (Guzman et al., 2019) by 6.6 points. While we are slightly below the semi-supervised baseline score of 15.1, we discuss what may have caused this under-performance, and suggest scope for future work.
- Abstract(参考訳): ある言語のペアは、サイズが大きく、ドメインが多様である並列コーパスの欠如に悩まされている。
これが克服される方法の1つは、ピボット言語を使用することである。
本稿ではヒンディー語を用いてネパール語を英語に翻訳する。
我々はヒンディー語がピボットのよい候補になる理由を説明する。
本稿では、ネパール語を英語に翻訳するために、ピボット言語の使用方法について議論し、トランスファーメソッド(十分に教師付き)とバックトランスレーション(半教師付き)の2つのアプローチを用いる。
前者を用いて14.2のSee SacreBLEUスコアを達成することができ、(Guzman et al , 2019)が報告したベースラインの完全監督スコアを6.6ポイント改善できる。
我々は、半教師付きベースラインスコアの15.1より少し低いが、この低パフォーマンスの原因となるものについて議論し、今後の作業のスコープを提案する。
関連論文リスト
- DeepRAG: Building a Custom Hindi Embedding Model for Retrieval Augmented Generation from Scratch [0.0]
DeepRAGは、RAGシステムにおけるヒンディー語専用に構築した特殊な埋め込みモデルです。
検索精度は、みんなが使っている多言語モデルと比べて23%向上しました。
論文 参考訳(メタデータ) (2025-03-11T09:27:56Z) - How effective is Multi-source pivoting for Translation of Low Resource Indian Languages? [43.44411629370054]
本稿では、ソース文とピボット文の両方を用いて、ピボットを用いた「複数ソース翻訳」アプローチについて検討する。
これまでの主張とは対照的に、マルチソースのピボットは最先端よりも限界的な改善をもたらすことが分かっています。
論文 参考訳(メタデータ) (2024-06-19T08:31:52Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India [33.31556860332746]
PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
論文 参考訳(メタデータ) (2023-05-15T17:41:15Z) - Simultaneous Multi-Pivot Neural Machine Translation [12.796775798210133]
同時のピボットNMT設定では、2つのピボット言語を使用することで最大5.8 BLEUの改善につながります。
N-way parallel UN corpus for Arabic to English NMTをフランス語とスペイン語でピボットとして用いた低リソース設定における実験により、2つのピボット言語を使用した同時ピボットNMT設定が最大5.8 BLEUの改善につながることが明らかになった。
論文 参考訳(メタデータ) (2021-04-15T12:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。