論文の概要: A Comparative Analysis of Retrieval-Augmented Generation Techniques for Bengali Standard-to-Dialect Machine Translation Using LLMs
- arxiv url: http://arxiv.org/abs/2512.14179v1
- Date: Tue, 16 Dec 2025 08:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.633814
- Title: A Comparative Analysis of Retrieval-Augmented Generation Techniques for Bengali Standard-to-Dialect Machine Translation Using LLMs
- Title(参考訳): LLMを用いたベンガル標準辞書機械翻訳のための検索拡張手法の比較分析
- Authors: K. M. Jubair Sami, Dipto Sumit, Ariyan Hossain, Farig Sadeque,
- Abstract要約: 標準言語からその地域方言への翻訳は、少ないデータと言語変化のため、重要なNLP課題である。
本稿では,標準的なベンガル翻訳のための2つの新しいRAGパイプラインを提案し,比較する。
- 参考スコア(独自算出の注目度): 0.3227658251731014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating from a standard language to its regional dialects is a significant NLP challenge due to scarce data and linguistic variation, a problem prominent in the Bengali language. This paper proposes and compares two novel RAG pipelines for standard-to-dialectal Bengali translation. The first, a Transcript-Based Pipeline, uses large dialect sentence contexts from audio transcripts. The second, a more effective Standardized Sentence-Pairs Pipeline, utilizes structured local\_dialect:standard\_bengali sentence pairs. We evaluated both pipelines across six Bengali dialects and multiple LLMs using BLEU, ChrF, WER, and BERTScore. Our findings show that the sentence-pair pipeline consistently outperforms the transcript-based one, reducing Word Error Rate (WER) from 76\% to 55\% for the Chittagong dialect. Critically, this RAG approach enables smaller models (e.g., Llama-3.1-8B) to outperform much larger models (e.g., GPT-OSS-120B), demonstrating that a well-designed retrieval strategy can be more crucial than model size. This work contributes an effective, fine-tuning-free solution for low-resource dialect translation, offering a practical blueprint for preserving linguistic diversity.
- Abstract(参考訳): 標準言語からその地域方言への翻訳は、ベンガル語で顕著な問題である、少ないデータと言語的変化のため、重要なNLP課題である。
本稿では,標準的なベンガル翻訳のための2つの新しいRAGパイプラインを提案し,比較する。
1つ目は、Transcriptベースのパイプラインで、音声書き起こしから大きな方言文コンテキストを使用する。
2つ目はより効果的な標準化された文ペアパイプラインで、構造化されたローカル\_dialect:standard\_bengali文ペアを利用する。
ベンガル方言6方言と複数のLLMのパイプラインをBLEU, ChrF, WER, BERTScoreを用いて評価した。
以上の結果から, 文対パイプラインは文字ベースのパイプラインより一貫して優れており, チッタゴン方言ではワード誤り率(WER)が76倍から55倍に低下していることがわかった。
重要なことに、このRAGアプローチにより、より小さなモデル(例えば、Llama-3.1-8B)がより大きなモデル(例えば、GPT-OSS-120B)より優れ、よく設計された検索戦略がモデルサイズよりも重要であることを示すことができる。
この研究は、低リソースの方言翻訳のための効果的で微調整のないソリューションに貢献し、言語多様性を維持するための実用的な青写真を提供する。
関連論文リスト
- POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Text Translation [47.51298472124902]
本稿では,言語間並列音声ペアと,高リソースと低リソースの翻訳ギャップを橋渡しする最適トランスポート(OT)に基づく新しいフレームワークを提案する。
提案手法は,平均5言語以上で+0.93 BLEU,ゼロショット言語で+5.05 BLEUのSOTA性能を実現する。
論文 参考訳(メタデータ) (2025-11-12T11:47:56Z) - A comparison of pipelines for the translation of a low resource language based on transformers [0.0]
この研究は、アフリカで話されている約14,188,850人のマンド語であるBambaraのための機械翻訳機を作るために、3つのパイプラインを比較した。
最初のパイプラインは、フランス語からバンバラ語に翻訳する単純なトランスフォーマーを訓練する。
第2の微細構造 LLaMA3 (3B-8B) インストラクターモデルは、フランス語からバンバラ語への翻訳のためにデコーダのみのアーキテクチャを使用する。
第3のパイプラインは、学生と教師のデュアルニューラルネットワークによる言語蒸留を使用して、Bambaraをトレーニング済みのLaBSEモデルに統合し、言語に依存しない埋め込みを提供する。
論文 参考訳(メタデータ) (2025-09-15T23:36:49Z) - Vuyko Mistral: Adapting LLMs for Low-Resource Dialectal Translation [0.0]
本稿では,ウクライナのフツル方言に大規模な言語モデルを適用するための最初の取り組みを紹介する。
我々は、9852語対標準ウクライナ語の文対と7320語の単語マッピングの辞書の並列コーパスを作成しました。
論文 参考訳(メタデータ) (2025-06-09T10:30:35Z) - LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。
我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。
評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-18T07:24:13Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - SumTra: A Differentiable Pipeline for Few-Shot Cross-Lingual Summarization [8.971234046933349]
言語間要約(XLS)は、入力文書とは異なる言語で要約を生成する。
本稿では,要約と翻訳のパイプラインを再検討し,要約と翻訳のタスクをシーケンスで実行することを提案する。
このアプローチは、モノリンガル要約と翻訳のための多くの公開リソースを再利用し、非常に競争力のあるゼロショット性能を得る。
論文 参考訳(メタデータ) (2024-03-20T02:04:42Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。