論文の概要: Adapting Small Language Models to Low-Resource Domains: A Case Study in Hindi Tourism QA
- arxiv url: http://arxiv.org/abs/2510.25273v1
- Date: Wed, 29 Oct 2025 08:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.285207
- Title: Adapting Small Language Models to Low-Resource Domains: A Case Study in Hindi Tourism QA
- Title(参考訳): 小規模言語モデルを低資源領域に適用する:ヒンディー語観光QAを事例として
- Authors: Sandipan Majhi, Paheli Bhattacharya,
- Abstract要約: 低リソース言語でのドメイン固有の質問応答は、アノテーション付きデータセットの不足と汎用言語モデルにおけるドメイン知識の制限という、2つの大きな課題に直面します。
本研究では,ヒンディー語観光領域に軽量言語モデルを適用するための多段階微調整手法を提案する。
- 参考スコア(独自算出の注目度): 0.509780930114934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain-specific question answering in low-resource languages faces two key challenges: scarcity of annotated datasets and limited domain knowledge in general-purpose language models. In this work, we present a multi-stage finetuning strategy to adapt lightweight language models to the Hindi tourism domain by leveraging both original and synthetic training data. Synthetic question-answer pairs are generated using large LLMs (LLaMA-70B, Phi-14B) and used to augment the limited original dataset. We explore several training methodologies and analyse their impact on domain generalisation. Our results demonstrate that large models can efficiently generate synthetic data, while small models can effectively adapt to it, offering a scalable pathway for low-resource, domain-specific QA.
- Abstract(参考訳): 低リソース言語でのドメイン固有の質問応答は、アノテーション付きデータセットの不足と汎用言語モデルにおけるドメイン知識の制限という、2つの大きな課題に直面します。
本研究では,ヒンディー語観光領域に軽量言語モデルを適用するための多段階微調整手法を提案する。
合成質問応答ペアは、大きなLLM(LLaMA-70B、Phi-14B)を使用して生成され、制限された元のデータセットを拡張するために使用される。
我々は、いくつかのトレーニング手法を探求し、それらの領域の一般化への影響を分析する。
以上の結果から,大規模モデルは効率よく合成データを生成でき,小型モデルは効率よく適応でき,低リソース・ドメイン固有QAのためのスケーラブルな経路を提供する。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - On Domain-Adaptive Post-Training for Multimodal Large Language Models [78.65220510401045]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。
データ合成、トレーニングパイプライン、タスク評価に重点を置いています。
バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文 参考訳(メタデータ) (2024-11-29T18:42:28Z) - Cross-Domain Content Generation with Domain-Specific Small Language Models [3.2772349789781616]
そこで本研究では,2つのドメインに対して,コーヒーレントかつ関連する出力を生成するための小言語モデルを提案する。
それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、生成品質が大幅に向上することがわかった。
凍結層による知識拡張は,小言語モデルがドメイン固有のコンテンツを生成するのに有効な方法であることを示す。
論文 参考訳(メタデータ) (2024-09-19T21:45:13Z) - InkubaLM: A small language model for low-resource African languages [9.426968756845389]
InkubaLMは0.4億のパラメータを持つ小さな言語モデルである。
パラメータ数が大幅に大きいモデルに匹敵するパフォーマンスを実現する。
複数の言語にまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-08-30T05:42:31Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning [4.8838210812204235]
本稿では,対象言語に1つの例があるICLを用いて生成されたデータセットに対して,半教師付き学習手法であるGeMQuADを提案する。
我々は、特に低リソースの多言語設定において、モデル性能を向上させるために、高品質なデータを反復的に識別する。
我々のフレームワークは、ヒンディー語で0.22/1.68 F1/EMポイント、MLQAデータセットでスペイン語で0.82/1.37 F1/EMポイントで機械翻訳拡張モデルより優れています。
論文 参考訳(メタデータ) (2024-04-14T06:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。