論文の概要: LLMs for Low-Resource Dialect Translation Using Context-Aware Prompting: A Case Study on Sylheti
- arxiv url: http://arxiv.org/abs/2511.21761v1
- Date: Mon, 24 Nov 2025 20:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.22006
- Title: LLMs for Low-Resource Dialect Translation Using Context-Aware Prompting: A Case Study on Sylheti
- Title(参考訳): 文脈認識型プロンプティングを用いた低リソース辞書翻訳のためのLLM:Sylhetiを事例として
- Authors: Tabia Tanzin Prama, Christopher M. Danforth, Peter Sheridan Dodds,
- Abstract要約: 本研究は,バングラ語の方言であるSylhetiに対する機械翻訳(MT)に関する最初の体系的な研究である。
Sylheti-CAP(Context-Aware Prompting)は、言語規則書、辞書、イディオムをプロンプトに埋め込むフレームワークである。
大規模な実験により、Sylheti-CAPはモデル間の翻訳品質を一貫して改善し、戦略を推進している。
- 参考スコア(独自算出の注目度): 0.568041607842355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong translation abilities through prompting, even without task-specific training. However, their effectiveness in dialectal and low-resource contexts remains underexplored. This study presents the first systematic investigation of LLM-based machine translation (MT) for Sylheti, a dialect of Bangla that is itself low-resource. We evaluate five advanced LLMs (GPT-4.1, GPT-4.1, LLaMA 4, Grok 3, and DeepSeek V3.2) across both translation directions (Bangla $\Leftrightarrow$ Sylheti), and find that these models struggle with dialect-specific vocabulary. To address this, we introduce Sylheti-CAP (Context-Aware Prompting), a three-step framework that embeds a linguistic rulebook, a dictionary (2{,}260 core vocabulary items and idioms), and an authenticity check directly into prompts. Extensive experiments show that Sylheti-CAP consistently improves translation quality across models and prompting strategies. Both automatic metrics and human evaluations confirm its effectiveness, while qualitative analysis reveals notable reductions in hallucinations, ambiguities, and awkward phrasing, establishing Sylheti-CAP as a scalable solution for dialectal and low-resource MT. Dataset link: \href{https://github.com/TabiaTanzin/LLMs-for-Low-Resource-Dialect-Translation-Using-Context-Aware-Prompti ng-A-Case-Study-on-Sylheti.git}{https://github.com/TabiaTanzin/LLMs-for-Low-Resource-Dialect-Translation-Using-Context-Aware-Prompti ng-A-Case-Study-on-Sylheti.git}
- Abstract(参考訳): 大規模言語モデル(LLM)は、タスク固有のトレーニングなしでも、プロンプトを通じて強力な翻訳能力を示す。
しかし、方言や低リソースの文脈におけるそれらの効果はいまだに解明されていない。
本研究は,バングラ語の方言であるSylhetiに対するLLM-based machine translation(MT)の体系的解析を行った最初の事例である。
GPT-4.1, GPT-4.1, LLaMA 4, Grok 3, DeepSeek V3.2 の5つの高度な LLM を両翻訳方向 (Bangla $\Leftrightarrow$ Sylheti) で評価し, これらのモデルが方言固有の語彙と競合していることを見出した。
そこで,Sylheti-CAP (Context-Aware Prompting) は言語規則書,辞書 (2{,}260の語彙項目と慣用句) を組み込んだ3段階のフレームワークである。
大規模な実験により、Sylheti-CAPはモデル間の翻訳品質を一貫して改善し、戦略を推進している。
Sylheti-CAPは方言および低リソースMTのためのスケーラブルなソリューションとして確立されている。データセットリンク: \href{https://github.com/TabiaTanzin/LLMs-for-Low-Resource-Dialect-Translation-Using-Context-Aware-Prompti ng-A-Case-Study-on-Sylheti.git}{https://github.com/TabiaTanzin/LLMs-for-Low-Resource-Dialect-Translation-Using-Aware-Prompting-A-Cas e-Study-on-Sylheti.git
関連論文リスト
- Combining Distantly Supervised Models with In Context Learning for Monolingual and Cross-Lingual Relation Extraction [22.152211131922943]
HYDRE-HYbrid Distantly Supervised Relation extract frameworkを提案する。
まず、訓練されたDSREモデルを使用して、与えられたテスト文の上位k候補関係を特定する。
そして、トレーニングデータから信頼性の高い文レベルの例を抽出する、新しい動的例証検索戦略を使用する。
論文 参考訳(メタデータ) (2025-10-21T06:55:19Z) - LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。
我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。
評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-18T07:24:13Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Learning-From-Mistakes Prompting for Indigenous Language Translation [3.7790255156708397]
本稿では,低リソースの母国語翻訳を改善する手法を提案する。
我々のアプローチは、限られた数の並列翻訳例からなるデータストアの使用に基礎を置いています。
我々は、LLMをユニバーサルトランスレータとして使用するような設定において、LLMと文脈内学習技術のポテンシャルを利用する。
論文 参考訳(メタデータ) (2024-07-18T09:41:20Z) - Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem [4.830018386227]
本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。
我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル化された教育材料と平行コーパスの制約されたデータベースから得られた様々な種類の文脈の情報量について検討する。
論文 参考訳(メタデータ) (2024-06-21T20:02:22Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。