論文の概要: Leveraging Sentence-oriented Augmentation and Transformer-Based Architecture for Vietnamese-Bahnaric Translation
- arxiv url: http://arxiv.org/abs/2601.19124v1
- Date: Tue, 27 Jan 2026 02:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.141624
- Title: Leveraging Sentence-oriented Augmentation and Transformer-Based Architecture for Vietnamese-Bahnaric Translation
- Title(参考訳): ベトナム・バーナ語翻訳のための文指向拡張とトランスフォーマーベースアーキテクチャの活用
- Authors: Tan Sang Nguyen, Quoc Nguyen Pham, Tho Quan,
- Abstract要約: ベトナムの少数民族であるバーナール人は、文化的、歴史的に重要な言語を持っている。
ニューラルネットワーク翻訳(NMT)のような人工知能の最近の進歩は、精度と流布率を改善することによって、翻訳の変換をもたらしている。
本稿では,NMTにおける最先端技術と,ドメイン固有のベトナム・バハナー語翻訳タスクのための2つの拡張戦略を用いる。
- 参考スコア(独自算出の注目度): 3.8603491959531375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Bahnar people, an ethnic minority in Vietnam with a rich ancestral heritage, possess a language of immense cultural and historical significance. The government places a strong emphasis on preserving and promoting the Bahnaric language by making it accessible online and encouraging communication across generations. Recent advancements in artificial intelligence, such as Neural Machine Translation (NMT), have brought about a transformation in translation by improving accuracy and fluency. This, in turn, contributes to the revival of the language through educational efforts, communication, and documentation. Specifically, NMT is pivotal in enhancing accessibility for Bahnaric speakers, making information and content more readily available. Nevertheless, the translation of Vietnamese into Bahnaric faces practical challenges due to resource constraints, especially given the limited resources available for the Bahnaric language. To address this, we employ state-of-the-art techniques in NMT along with two augmentation strategies for domain-specific Vietnamese-Bahnaric translation task. Importantly, both approaches are flexible and can be used with various neural machine translation models. Additionally, they do not require complex data preprocessing steps, the training of additional systems, or the acquisition of extra data beyond the existing training parallel corpora.
- Abstract(参考訳): バフナル人はベトナムの民族的少数民族であり、祖先の遺産が豊富にあり、文化的、歴史的に重要な言語を持っている。
政府はバフナル語をオンラインで利用し、世代間でのコミュニケーションを促進することで、バフナル語を保存し、促進することに強く重点を置いている。
ニューラルネットワーク翻訳(NMT)のような人工知能の最近の進歩は、精度と流布率を改善することによって、翻訳の変換をもたらしている。
これは、教育活動、コミュニケーション、文書化を通じて言語の復活に寄与する。
具体的には、NMTはバーナール話者のアクセシビリティを高める上で重要なものであり、情報やコンテンツをより容易に利用できるようにしている。
しかしながら、ベトナム語をバーナール語に翻訳することは、特にバーナール語で利用可能な限られた資源を考えると、資源の制約のために現実的な課題に直面している。
そこで我々は,NMTにおける最先端技術と,ドメイン固有のベトナム・バハナー語翻訳タスクのための2つの拡張戦略を採用した。
重要なのは、どちらのアプローチも柔軟であり、さまざまなニューラルネットワーク翻訳モデルで使用することができることだ。
さらに、複雑なデータ前処理ステップや追加システムのトレーニング、既存のトレーニング並列コーパスを越えた追加データの取得も必要としない。
関連論文リスト
- Analyzing and Improving Cross-lingual Knowledge Transfer for Machine Translation [5.878901309908815]
ニューラルモデルにおける言語間知識伝達について検討し,多言語環境におけるロバストネスと一般化を改善する手法を開発した。
学習中の言語多様性の役割について検討し,翻訳範囲の増加が一般化を改善し,目標外行動を低減することを示す。
論文 参考訳(メタデータ) (2026-01-07T15:51:54Z) - Towards Cultural Bridge by Bahnaric-Vietnamese Translation Using Transfer Learning of Sequence-To-Sequence Pre-training Language Model [0.24578723416255754]
この研究は、ベトナムの2つの民族集団を文化的にブリッジするために、バーナール語・ベトナム語訳を達成するための旅を探求する。
最も顕著な課題は、オリジナルのBahnaricリソースソース言語が不足していることである。
シーケンス・ツー・シーケンス・プレトレーニング言語モデルを用いた転送学習手法を利用する。
論文 参考訳(メタデータ) (2025-05-16T16:33:36Z) - Understanding and Analyzing Model Robustness and Knowledge-Transfer in Multilingual Neural Machine Translation using TX-Ray [3.2771631221674333]
本研究では,言語間の知識伝達が,極低リソース環境におけるニューラルマシン翻訳(MNMT)をいかに向上させるかを検討する。
我々は、最小限の並列データを利用して、英語・ドイツ語・英語・フランス語・英語・スペイン語の翻訳を行い、言語間マッピングを確立する。
逐次移動学習は40kパラレル文コーパスのベースラインよりも優れており,その有効性を示している。
論文 参考訳(メタデータ) (2024-12-18T14:21:58Z) - Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Code-Switching with Word Senses for Pretraining in Neural Machine
Translation [107.23743153715799]
ニューラルネットワーク翻訳のための単語センス事前学習(WSP-NMT)について紹介する。
WSP-NMTは、知識ベースからの単語感覚情報を活用した多言語NMTモデルの事前学習のためのエンドツーエンドアプローチである。
実験の結果,全体の翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-21T16:13:01Z) - Hindi to English: Transformer-Based Neural Machine Translation [0.0]
我々は,インド語ヒンディー語から英語への翻訳のためにトランスフォーマーモデルを訓練し,機械翻訳(NMT)システムを開発した。
トレーニングデータを増強し、語彙を作成するために、バックトランスレーションを実装した。
これにより、IIT Bombay English-Hindi Corpusのテストセットで、最先端のBLEUスコア24.53を達成することができました。
論文 参考訳(メタデータ) (2023-09-23T00:00:09Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Neural Machine Translation: Challenges, Progress and Future [62.75523637241876]
機械翻訳(英: Machine translation, MT)は、コンピュータを利用して人間の言語を自動翻訳する技術である。
ニューラルマシン翻訳(NMT)は、ディープニューラルネットワークを用いたソース言語とターゲット言語間の直接マッピングをモデル化する。
この記事では、NMTフレームワークをレビューし、NMTの課題について論じ、最近のエキサイティングな進歩を紹介します。
論文 参考訳(メタデータ) (2020-04-13T07:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。