論文の概要: Cost-Efficient Cross-Lingual Retrieval-Augmented Generation for Low-Resource Languages: A Case Study in Bengali Agricultural Advisory
- arxiv url: http://arxiv.org/abs/2601.02065v1
- Date: Mon, 05 Jan 2026 12:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.125972
- Title: Cost-Efficient Cross-Lingual Retrieval-Augmented Generation for Low-Resource Languages: A Case Study in Bengali Agricultural Advisory
- Title(参考訳): 低資源言語のための費用効率のよい言語間検索型検索生成:ベンガル農業相談所を事例として
- Authors: Md. Asif Hossain, Nabil Subhan, Mantasha Rahman Mahi, Jannatul Ferdous Nabila,
- Abstract要約: 多くの発展途上国では、永続的な言語障壁のため、信頼できる農業アドバイザリーへのアクセスが制限されている。
本稿では,ベンガル農業アドバイザリーのための費用効率・言語横断型検索・拡張フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Access to reliable agricultural advisory remains limited in many developing regions due to a persistent language barrier: authoritative agricultural manuals are predominantly written in English, while farmers primarily communicate in low-resource local languages such as Bengali. Although recent advances in Large Language Models (LLMs) enable natural language interaction, direct generation in low-resource languages often exhibits poor fluency and factual inconsistency, while cloud-based solutions remain cost-prohibitive. This paper presents a cost-efficient, cross-lingual Retrieval-Augmented Generation (RAG) framework for Bengali agricultural advisory that emphasizes factual grounding and practical deployability. The proposed system adopts a translation-centric architecture in which Bengali user queries are translated into English, enriched through domain-specific keyword injection to align colloquial farmer terminology with scientific nomenclature, and answered via dense vector retrieval over a curated corpus of English agricultural manuals (FAO, IRRI). The generated English response is subsequently translated back into Bengali to ensure accessibility. The system is implemented entirely using open-source models and operates on consumer-grade hardware without reliance on paid APIs. Experimental evaluation demonstrates reliable source-grounded responses, robust rejection of out-of-domain queries, and an average end-to-end latency below 20 seconds. The results indicate that cross-lingual retrieval combined with controlled translation offers a practical and scalable solution for agricultural knowledge access in low-resource language settings
- Abstract(参考訳): 権威ある農業マニュアルは主として英語で書かれており、農家はベンガル語のような低資源の地方言語で通信している。
近年のLarge Language Models (LLMs) の進歩は自然言語の相互作用を可能にするが、低リソース言語での直接生成は、しばしば流速が低く、現実的に矛盾するが、クラウドベースのソリューションはコストを抑える。
本稿では,ベンガルの農業アドバイザリーにおいて,現実的基盤化と実践的展開性を重視した,費用効率のよい,言語横断型検索・拡張世代(RAG)フレームワークを提案する。
提案システムは,ベンガル語利用者問合せを英語に翻訳し,ドメイン固有のキーワードインジェクションを駆使して,口語農用語を科学的命名と整合させ,英語農業マニュアル(FAO,IRRI)のキュレートされたコーパス上での高密度ベクトル検索を通じて回答する翻訳中心アーキテクチャを採用した。
生成された英語の応答はその後ベンガル語に翻訳され、アクセシビリティーが保証される。
このシステムは、完全にオープンソースモデルを使用して実装されており、有料APIに依存することなく、コンシューマグレードのハードウェアで動作する。
実験による評価では、信頼性の高いソースグラウンド応答、ドメイン外クエリの堅牢な拒否、20秒未満の平均エンドツーエンドレイテンシが示されている。
その結果,低リソース言語環境下での農業知識アクセスに,言語間検索と制御翻訳を組み合わせることで,実践的でスケーラブルなソリューションが提供されることがわかった。
関連論文リスト
- A Multimodal Conversational Assistant for the Characterization of Agricultural Plots from Geospatial Open Data [0.0]
本研究では,多モーダル検索と大規模言語モデル(LLM)を統合したオープンソースの対話型アシスタントを提案する。
提案したアーキテクチャは, 検索拡張生成(RAG)によるオクトロフォト, セチネル-2植生指標, およびユーザ提供文書を組み合わせたものである。
予備的な結果は、農業用クエリに対して明確で、関連性があり、コンテキスト対応の応答を生成することができることを示している。
論文 参考訳(メタデータ) (2025-09-22T09:02:53Z) - Leveraging Synthetic Data for Question Answering with Multilingual LLMs in the Agricultural Domain [1.0144032120138065]
本研究は,インドの農業特化資料から多言語(ヒンディー語,パンジャービ語)の合成データセットを生成する。
人為的データセットの評価は、事実性、関連性、農業コンセンサスにおいて著しく改善されている。
論文 参考訳(メタデータ) (2025-07-22T19:25:10Z) - KinyaColBERT: A Lexically Grounded Retrieval Model for Low-Resource Retrieval-Augmented Generation [5.236553729261855]
そこで本稿では,クエリとドキュメント間の単語レベルの遅延インタラクションと,2層トランスフォーマ符号化を組み合わせた形態素ベースのトークン化という,2つの重要な概念を統合した検索モデルKinyaColBERTを提案する。
評価の結果,KinyaColBERTはKinyarwandaの農業用ベンチマークにおいて,強いベースラインと商業用テキスト埋め込みAPIよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-07-04T01:18:08Z) - Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [89.45111250272559]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-04T17:35:43Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。