論文の概要: A comparison of pipelines for the translation of a low resource language based on transformers
- arxiv url: http://arxiv.org/abs/2509.12514v1
- Date: Mon, 15 Sep 2025 23:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.810328
- Title: A comparison of pipelines for the translation of a low resource language based on transformers
- Title(参考訳): 変圧器に基づく低資源言語翻訳のためのパイプラインの比較
- Authors: Chiara Bonfanti, Michele Colombino, Giulia Coucourde, Faeze Memari, Stefano Pinardi, Rosa Meo,
- Abstract要約: この研究は、アフリカで話されている約14,188,850人のマンド語であるBambaraのための機械翻訳機を作るために、3つのパイプラインを比較した。
最初のパイプラインは、フランス語からバンバラ語に翻訳する単純なトランスフォーマーを訓練する。
第2の微細構造 LLaMA3 (3B-8B) インストラクターモデルは、フランス語からバンバラ語への翻訳のためにデコーダのみのアーキテクチャを使用する。
第3のパイプラインは、学生と教師のデュアルニューラルネットワークによる言語蒸留を使用して、Bambaraをトレーニング済みのLaBSEモデルに統合し、言語に依存しない埋め込みを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work compares three pipelines for training transformer-based neural networks to produce machine translators for Bambara, a Mand\`e language spoken in Africa by about 14,188,850 people. The first pipeline trains a simple transformer to translate sentences from French into Bambara. The second fine-tunes LLaMA3 (3B-8B) instructor models using decoder-only architectures for French-to-Bambara translation. Models from the first two pipelines were trained with different hyperparameter combinations to improve BLEU and chrF scores, evaluated on both test sentences and official Bambara benchmarks. The third pipeline uses language distillation with a student-teacher dual neural network to integrate Bambara into a pre-trained LaBSE model, which provides language-agnostic embeddings. A BERT extension is then applied to LaBSE to generate translations. All pipelines were tested on Dokotoro (medical) and Bayelemagaba (mixed domains). Results show that the first pipeline, although simpler, achieves the best translation accuracy (10% BLEU, 21% chrF on Bayelemagaba), consistent with low-resource translation results. On the Yiri dataset, created for this work, it achieves 33.81% BLEU and 41% chrF. Instructor-based models perform better on single datasets than on aggregated collections, suggesting they capture dataset-specific patterns more effectively.
- Abstract(参考訳): この研究は、トランスフォーマーベースのニューラルネットワークをトレーニングする3つのパイプラインを比較して、約14,188,850人のアフリカで話されているMand\`e言語Bambaraの機械翻訳語を生成する。
最初のパイプラインは、フランス語からバンバラ語に翻訳する単純なトランスフォーマーを訓練する。
第2の微細構造 LLaMA3 (3B-8B) インストラクターモデルは、フランス語からバンバラ語への翻訳のためにデコーダのみのアーキテクチャを使用する。
最初の2つのパイプラインのモデルはBLEUとchrFのスコアを改善するために異なるハイパーパラメータの組み合わせで訓練され、テスト文と公式のBambaraベンチマークの両方で評価された。
第3のパイプラインは、学生と教師のデュアルニューラルネットワークによる言語蒸留を使用して、Bambaraをトレーニング済みのLaBSEモデルに統合し、言語に依存しない埋め込みを提供する。
その後、BERT拡張をLaBSEに適用して翻訳を生成する。
全てのパイプラインはドコトロ(医学)とベイレマガバ(混合藩)で試験された。
その結果、第1のパイプラインはより単純ではあるが、最も正確な翻訳精度(Bayelemagaba の 10% BLEU, 21% chrF)が得られ、低リソースの翻訳結果と一致していることがわかった。
この研究のために作成されたYiriデータセットでは、BLEUは33.81%、ChrFは41%に達する。
インストラクタベースのモデルは、集約されたコレクションよりも単一のデータセットでパフォーマンスが良く、データセット固有のパターンをより効果的にキャプチャすることを示唆している。
関連論文リスト
- An Efficient Approach for Machine Translation on Low-resource Languages: A Case Study in Vietnamese-Chinese [1.6932009464531739]
ベトナム中国語などの低リソース言語で機械翻訳を行う手法を提案する。
提案手法は,多言語事前学習言語モデル(mBART)とベトナム語と中国語の単言語コーパスのパワーを利用した。
論文 参考訳(メタデータ) (2025-01-31T17:11:45Z) - Transformers for Low-Resource Languages:Is F\'eidir Linn! [2.648836772989769]
一般に、ニューラルネットワークモデルは訓練データが不十分な言語ペアで実行されることが多い。
適切なパラメータを選択することで、パフォーマンスが大幅に向上することを示す。
Transformer最適化モデルでは,ベースラインRNNモデルと比較してBLEUスコアが7.8ポイント向上した。
論文 参考訳(メタデータ) (2024-03-04T12:29:59Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - Amortized Noisy Channel Neural Machine Translation [53.48804610779759]
ノイズチャネルモデルは神経機械翻訳(NMT)に特に有効である
我々は,BSRで生成された翻訳と同じ報酬を最大化する翻訳を生成するような,アモータイズされたノイズチャネルNMTモデルを構築することを目指している。
論文 参考訳(メタデータ) (2021-12-16T07:10:02Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - BERT, mBERT, or BiBERT? A Study on Contextualized Embeddings for Neural
Machine Translation [38.017030073108735]
本稿では,バイリンガル事前学習型言語モデル(BiBERT)が最先端の翻訳性能を実現することを示す。
我々の最良のモデルは、IWSLT'14データセットでは30.45点、IWSLT'14データセットでは38.61点、WMT'14データセットでは31.26点、WMT'14データセットでは34.94点である。
論文 参考訳(メタデータ) (2021-09-09T23:43:41Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。