論文の概要: Towards Cultural Bridge by Bahnaric-Vietnamese Translation Using Transfer Learning of Sequence-To-Sequence Pre-training Language Model
- arxiv url: http://arxiv.org/abs/2505.11421v1
- Date: Fri, 16 May 2025 16:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.589045
- Title: Towards Cultural Bridge by Bahnaric-Vietnamese Translation Using Transfer Learning of Sequence-To-Sequence Pre-training Language Model
- Title(参考訳): Bahnaric-Vietnamese 翻訳による文化橋を目指して
- Authors: Phan Tran Minh Dat, Vo Hoang Nhat Khang, Quan Thanh Tho,
- Abstract要約: この研究は、ベトナムの2つの民族集団を文化的にブリッジするために、バーナール語・ベトナム語訳を達成するための旅を探求する。
最も顕著な課題は、オリジナルのBahnaricリソースソース言語が不足していることである。
シーケンス・ツー・シーケンス・プレトレーニング言語モデルを用いた転送学習手法を利用する。
- 参考スコア(独自算出の注目度): 0.24578723416255754
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work explores the journey towards achieving Bahnaric-Vietnamese translation for the sake of culturally bridging the two ethnic groups in Vietnam. However, translating from Bahnaric to Vietnamese also encounters some difficulties. The most prominent challenge is the lack of available original Bahnaric resources source language, including vocabulary, grammar, dialogue patterns and bilingual corpus, which hinders the data collection process for training. To address this, we leverage a transfer learning approach using sequence-to-sequence pre-training language model. First of all, we leverage a pre-trained Vietnamese language model to capture the characteristics of this language. Especially, to further serve the purpose of machine translation, we aim for a sequence-to-sequence model, not encoder-only like BERT or decoder-only like GPT. Taking advantage of significant similarity between the two languages, we continue training the model with the currently limited bilingual resources of Vietnamese-Bahnaric text to perform the transfer learning from language model to machine translation. Thus, this approach can help to handle the problem of imbalanced resources between two languages, while also optimizing the training and computational processes. Additionally, we also enhanced the datasets using data augmentation to generate additional resources and defined some heuristic methods to help the translation more precise. Our approach has been validated to be highly effective for the Bahnaric-Vietnamese translation model, contributing to the expansion and preservation of languages, and facilitating better mutual understanding between the two ethnic people.
- Abstract(参考訳): この研究は、ベトナムの2つの民族集団を文化的にブリッジするために、バーナール語・ベトナム語訳を達成するための旅を探求する。
しかし、バーナール語からベトナム語への翻訳も困難に直面している。
最も顕著な課題は、語彙、文法、対話パターン、およびバイリンガルコーパスを含む、利用可能なバフナリックリソースのソース言語がないことである。
そこで本研究では,シーケンス・ツー・シーケンス・プレトレーニング言語モデルを用いたトランスファー学習手法を提案する。
まず、事前訓練されたベトナム語モデルを用いて、この言語の特徴を捉える。
特に,機械翻訳の目的のために,BERTのようなエンコーダのみやGPTのようなデコーダのみではなく,シーケンス・ツー・シーケンス・モデルを提案する。
両言語間の大きな類似性を生かして,ベトナム・バハナ語文の現在限られたバイリンガル資源を用いてモデルを訓練し,言語モデルから機械翻訳への変換学習を行う。
このように、このアプローチは、トレーニングと計算プロセスを最適化しながら、2つの言語間の不均衡なリソースの問題に対処するのに役立つ。
さらに、データ拡張を使用してデータセットを拡張して、追加のリソースを生成し、より正確な翻訳を支援するためのヒューリスティックな方法を定義しました。
我々のアプローチは、バーナール語・ベトナム語翻訳モデルに極めて有効であることが証明され、言語の拡張と保存に寄与し、2つの民族間の相互理解の促進に寄与している。
関連論文リスト
- An Efficient Approach for Machine Translation on Low-resource Languages: A Case Study in Vietnamese-Chinese [1.6932009464531739]
ベトナム中国語などの低リソース言語で機械翻訳を行う手法を提案する。
提案手法は,多言語事前学習言語モデル(mBART)とベトナム語と中国語の単言語コーパスのパワーを利用した。
論文 参考訳(メタデータ) (2025-01-31T17:11:45Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin [3.2039731457723604]
ナイジェリアのピジン (Naija) のテキスト分類と翻訳を, 大規模に並列した英語-ピジンコーパスを収集することによって改善することを目的としている。
本研究は,英語の事前学習型言語モデルが,最大2.38BLEUの改善を伴い,多言語言語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-01T16:47:36Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Scheduled Multi-task Learning for Neural Chat Translation [66.81525961469494]
ニューラルチャット翻訳(NCT)のためのマルチタスク学習フレームワークを提案する。
具体的には、大規模なドメイン内チャット翻訳データをトレーニングに組み込むための3段階のトレーニングフレームワークを考案する。
提案手法の有効性と優越性を検証するために, 4言語方向の広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-08T02:57:28Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Improving Multilingual Neural Machine Translation For Low-Resource
Languages: French-, English- Vietnamese [4.103253352106816]
本稿では,多言語mtシステムにおける希少な単語問題に対処するための2つの単純な戦略を提案する。
両言語対のバイリンガルベースラインシステムに対して,+1.62と+2.54のBLEU点が大幅に改善された。
論文 参考訳(メタデータ) (2020-12-16T04:43:43Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。