論文の概要: Investigating Recent Large Language Models for Vietnamese Machine Reading Comprehension
- arxiv url: http://arxiv.org/abs/2503.18062v1
- Date: Sun, 23 Mar 2025 13:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:27.407992
- Title: Investigating Recent Large Language Models for Vietnamese Machine Reading Comprehension
- Title(参考訳): ベトナム語機械読解における最近の大規模言語モデルの検討
- Authors: Anh Duc Nguyen, Hieu Minh Phi, Anh Viet Ngo, Long Hai Trieu, Thai Phuong Nguyen,
- Abstract要約: ベトナムのMRCデータセットであるViMMRC上で2つの最先端のLarge Language Model (LLM)を評価し評価する。
我々の微調整モデルは GPT-3 や GPT-3.5 よりも小さいが、従来の BERT ベースのアプローチとこれらの大きなモデルよりも優れている。
- 参考スコア(独自算出の注目度): 1.456352735394398
- License:
- Abstract: Large Language Models (LLMs) have shown remarkable proficiency in Machine Reading Comprehension (MRC) tasks; however, their effectiveness for low-resource languages like Vietnamese remains largely unexplored. In this paper, we fine-tune and evaluate two state-of-the-art LLMs: Llama 3 (8B parameters) and Gemma (7B parameters), on ViMMRC, a Vietnamese MRC dataset. By utilizing Quantized Low-Rank Adaptation (QLoRA), we efficiently fine-tune these models and compare their performance against powerful LLM-based baselines. Although our fine-tuned models are smaller than GPT-3 and GPT-3.5, they outperform both traditional BERT-based approaches and these larger models. This demonstrates the effectiveness of our fine-tuning process, showcasing how modern LLMs can surpass the capabilities of older models like BERT while still being suitable for deployment in resource-constrained environments. Through intensive analyses, we explore various aspects of model performance, providing valuable insights into adapting LLMs for low-resource languages like Vietnamese. Our study contributes to the advancement of natural language processing in low-resource languages, and we make our fine-tuned models publicly available at: https://huggingface.co/iaiuet.
- Abstract(参考訳): 大規模言語モデル(LLM)は、機械読解(MRC)タスクにおいて顕著な習熟度を示しているが、ベトナムのような低リソース言語に対するその効果は、まだ明らかにされていない。
本稿ではベトナムのMRCデータセットであるViMMRC上で,Llama 3 (8Bパラメータ)とGemma (7Bパラメータ)の2つの最先端LCMを微調整し,評価する。
Quantized Low-Rank Adaptation (QLoRA)を用いて、これらのモデルを効率よく微調整し、その性能を強力なLCMベースラインと比較する。
我々の微調整モデルは GPT-3 や GPT-3.5 よりも小さいが、従来の BERT ベースのアプローチとこれらの大きなモデルよりも優れている。
これは我々の微調整プロセスの有効性を示し、現代のLCMがBERTのような古いモデルの能力を超越し、資源制約のある環境への展開に相変わらず適していることを示している。
本稿では,ベトナム語のような低リソース言語へのLLMの適用について,モデル性能のさまざまな側面について考察する。
我々の研究は、低リソース言語における自然言語処理の進歩に寄与し、細調整されたモデルを、https://huggingface.co/iaiuet.comで公開しています。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Challenges in Adapting Multilingual LLMs to Low-Resource Languages using LoRA PEFT Tuning [0.4194295877935868]
本研究では,ローランド適応 (LoRA) -高効率ファインチューニング (PEFT) がマラウイの多言語Gemmaモデルに及ぼす影響について検討した。
52,000対の命令応答対を持つ翻訳データセットを用いて、評価結果が微調整後に低下する一方で、手動による評価では、微調整されたモデルが元のモデルよりも優れていることがしばしば示唆されている。
論文 参考訳(メタデータ) (2024-11-27T18:14:38Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Leveraging Parameter Efficient Training Methods for Low Resource Text Classification: A Case Study in Marathi [0.4194295877935868]
Indic low-resource language Marathi のPEFT法について検討する。
これらのアプローチは、MahaSent、MahaHate、MahaNewsといった著名なテキスト分類データセットに基づいて評価される。
これらの手法は完全微調整と競合し,精度を損なうことなく使用できることを示す。
論文 参考訳(メタデータ) (2024-08-06T13:16:16Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - ChatGPT for Arabic Grammatical Error Correction [5.945320097465418]
大きな言語モデル(LLM)は、人間の指示に従うように微調整され、英語のNLPタスクにおいて重要な機能を示した。
本稿では,アラビア語の豊富な形態が原因で複雑化した課題である,アラビア語 GEC における微調整 LLM の指導能力について検討する。
命令の微調整モデルは,そのサイズによらず,かなり小型の完全微調整モデルに比べて性能が劣ることがわかった。
論文 参考訳(メタデータ) (2023-08-08T18:00:39Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。