論文の概要: Transformer-Based Low-Resource Language Translation: A Study on Standard Bengali to Sylheti
- arxiv url: http://arxiv.org/abs/2510.18898v1
- Date: Mon, 20 Oct 2025 16:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.220994
- Title: Transformer-Based Low-Resource Language Translation: A Study on Standard Bengali to Sylheti
- Title(参考訳): トランスフォーマーに基づく低リソース言語翻訳:標準ベンガル語からシリヘチ語への変換
- Authors: Mangsura Kabir Oni, Tabia Tanzin Prama,
- Abstract要約: 細調整多言語変換器モデルによるベンガル-シルヘティ変換について検討する。
実験により、微調整モデルが大規模言語モデルよりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Translation (MT) has advanced from rule-based and statistical methods to neural approaches based on the Transformer architecture. While these methods have achieved impressive results for high-resource languages, low-resource varieties such as Sylheti remain underexplored. In this work, we investigate Bengali-to-Sylheti translation by fine-tuning multilingual Transformer models and comparing them with zero-shot large language models (LLMs). Experimental results demonstrate that fine-tuned models significantly outperform LLMs, with mBART-50 achieving the highest translation adequacy and MarianMT showing the strongest character-level fidelity. These findings highlight the importance of task-specific adaptation for underrepresented languages and contribute to ongoing efforts toward inclusive language technologies.
- Abstract(参考訳): 機械翻訳(MT)はルールベースおよび統計手法からトランスフォーマーアーキテクチャに基づくニューラルアプローチへと進歩した。
これらの手法は、高リソース言語では目覚ましい結果を得たが、Sylhetiのような低リソースの品種は未だ探索されていない。
本研究では,Bengali-to-Sylheti変換を微調整多言語トランスフォーマーモデルを用いて検討し,ゼロショット大言語モデル(LLM)と比較する。
実験結果から,mBART-50は翻訳精度が最も高く,MarianMTはキャラクタレベルの忠実度が最も高かった。
これらの知見は、未表現言語に対するタスク固有の適応の重要性を強調し、包括的言語技術への継続的な取り組みに寄与している。
関連論文リスト
- Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation [33.08089616645845]
大言語モデル(LLM)は機械翻訳(MT)のランドスケープを再構築した
我々は,数発のプロンプト,言語間移動,パラメータ効率の微調整などの手法を解析する。
幻覚、評価の不整合、遺伝バイアスなど、永続的な課題について議論する。
論文 参考訳(メタデータ) (2025-04-02T17:26:40Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Leveraging Parameter Efficient Training Methods for Low Resource Text Classification: A Case Study in Marathi [0.4194295877935868]
Indic low-resource language Marathi のPEFT法について検討する。
これらのアプローチは、MahaSent、MahaHate、MahaNewsといった著名なテキスト分類データセットに基づいて評価される。
これらの手法は完全微調整と競合し,精度を損なうことなく使用できることを示す。
論文 参考訳(メタデータ) (2024-08-06T13:16:16Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - Enhancing Neural Machine Translation of Low-Resource Languages: Corpus
Development, Human Evaluation and Explainable AI Architectures [0.0]
Transformerアーキテクチャは、特に高リソースの言語ペアにおいて、ゴールドスタンダードとして際立っている。
低リソース言語のための並列データセットの不足は、機械翻訳開発を妨げる可能性がある。
この論文では、ニューラルネットワーク翻訳モデルの開発、微調整、デプロイのために合理化された2つのオープンソースアプリケーションであるAdaptNMTとAdaptMLLMを紹介している。
論文 参考訳(メタデータ) (2024-03-03T18:08:30Z) - Translation and Fusion Improves Zero-shot Cross-lingual Information Extraction [18.926993352330797]
本稿では,低リソース言語データの英語翻訳をモデルに微調整したフレームワークであるTransFusionを提案する。
GoLLIE-TFは、IEタスクのための言語間命令チューニング LLM であり、ハイソース言語と低リソース言語のパフォーマンスギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2023-05-23T01:23:22Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。