論文の概要: Maistros: A Greek Large Language Model Adapted Through Knowledge Distillation From Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2605.01870v1
- Date: Sun, 03 May 2026 13:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.97503
- Title: Maistros: A Greek Large Language Model Adapted Through Knowledge Distillation From Large Reasoning Models
- Title(参考訳): Maistros: 大規模推論モデルから知識蒸留を応用したギリシャの大規模言語モデル
- Authors: Nikolaos Giarelis, Charalampos Mastrokostas, Nikos Karacapilidis,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)の分野を大幅に進歩させた。
最近の研究は、応答精度を向上させるために、明示的な内部推論プロセスを含む大きな推論モデル(LRM)を導入している。
本稿では,質問応答(QA)データセットの限られた数しか提案されていない現代ギリシア語に焦点を当てる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have substantially advanced the field of Natural Language Processing (NLP), achieving state-of-the-art performance across a wide range of tasks. These improvements have been attributed, in part, to their emerging reasoning capabilities, which are enabled by large-scale training and increased model capacity. However, existing LLMs can generate erroneous responses when addressing complex queries that fall outside their training distribution, due to limited internal knowledge or the need for multi-step reasoning. To address these limitations, recent work has introduced large reasoning models (LRMs), which incorporate explicit internal reasoning processes to improve response accuracy. Additionally, state-of-the-art LRMs often comprise hundreds of billions of parameters and require several seconds per inference, even on advanced multi-GPU systems. These characteristics limit their practicality for deployment in conventional computing environments. Meanwhile, NLP research on multilingual LLMs continues to prioritize high-resource languages. However, these models exhibit limited performance in under-resourced languages, primarily due to insufficient language- and culture-specific training data. In this paper, we focus on Modern Greek, for which only a limited number of question answering (QA) datasets have been proposed, most of which are intended for model evaluation. To address this research gap in Greek QA, we make the following contributions: (i) CulturaQA, a high-quality LRM-generated and human-curated dataset, for Greek LLM training and evaluation; (ii) a memory-efficient LLM evaluation framework adaptable to diverse languages and QA tasks; (iii) Maistros 8B, a state-of-the-art open-weights Greek LLM developed via knowledge distillation and fine-tuning on CulturaQA; and (iv) a comprehensive evaluation of nine LLMs across nine human-curated Greek QA datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理(NLP)の分野を大幅に進歩させ、幅広いタスクで最先端のパフォーマンスを実現している。
これらの改善は、部分的には、大規模なトレーニングとモデルキャパシティの向上によって実現された、新たな推論能力に起因している。
しかし、既存のLLMは、内部知識の制限やマルチステップ推論の必要性のため、トレーニングディストリビューションの外で発生する複雑なクエリに対処する際に、誤った応答を生成することができる。
これらの制限に対処するため、最近の研究は、応答精度を向上させるために、明示的な内部推論プロセスを含む大きな推論モデル(LRM)を導入している。
さらに、最先端のRTMは数十億のパラメータで構成され、高度なマルチGPUシステムでさえ、推論に数秒を要します。
これらの特徴は、従来の計算環境におけるデプロイの実用性を制限する。
一方、NLPによる多言語LLMの研究は、ハイソース言語を優先し続けている。
しかし、これらのモデルは、主に言語や文化固有の訓練データに乏しいため、リソース不足の言語では限られた性能を示す。
本稿では,質問応答(QA)データセットの限られた数しか提案されていない現代ギリシア語に焦点を当て,そのほとんどはモデル評価を目的としたものである。
ギリシャのQAにおけるこの研究ギャップに対処するため、以下の貢献をしている。
一 ギリシャ LLM トレーニング及び評価のための高品質な LRM 生成人為計算データセットである CulturaQA
(ii)多様な言語やQAタスクに適応可能なメモリ効率の高いLCM評価フレームワーク
(三)Maistros 8Bは、知識蒸留及びCulturaQAの微調整により開発された、最先端のギリシャ製LLMである。
(iv) 人為的なギリシャの9つのQAデータセットにわたる9つのLCMの総合的な評価。
関連論文リスト
- Evaluating Monolingual and Multilingual Large Language Models for Greek Question Answering: The DemosQA Benchmark [0.0]
大規模言語モデル (LLM) は質問回答 (QA) を含む幅広いタスクにわたって最先端の技術を進歩させてきた。
自然言語処理とディープラーニングの進歩により、大規模言語モデル(LLM)の開発が可能になった。
論文 参考訳(メタデータ) (2026-02-18T19:15:30Z) - RoBiologyDataChoiceQA: A Romanian Dataset for improving Biology understanding of Large Language Models [0.15293427903448023]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな可能性を証明している。
本研究は,複数選択生物学の疑問に対するルーマニア語の新たなデータセットについて紹介する。
論文 参考訳(メタデータ) (2025-09-30T05:41:50Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - MEGA: Multilingual Evaluation of Generative AI [23.109803506475174]
生成AIモデルは、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。
LLMのほとんどの研究は英語に限られている。
これらのモデルが、他の言語でのテキストの理解と生成にどの程度の能力があるかは定かではない。
論文 参考訳(メタデータ) (2023-03-22T13:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。