論文の概要: HSKBenchmark: Modeling and Benchmarking Chinese Second Language Acquisition in Large Language Models through Curriculum Tuning
- arxiv url: http://arxiv.org/abs/2511.15574v1
- Date: Wed, 19 Nov 2025 16:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.891127
- Title: HSKBenchmark: Modeling and Benchmarking Chinese Second Language Acquisition in Large Language Models through Curriculum Tuning
- Title(参考訳): HSKBenchmark:カリキュラムチューニングによる大規模言語モデルにおける中国語第二言語獲得のモデル化とベンチマーク
- Authors: Qihao Yang, Xuelin Wang, Jiale Chen, Xuelian Dong, Yuxin Hao, Tianyong Hao,
- Abstract要約: 本稿では,大規模言語モデルのステージドモデリングと記述評価のための最初のベンチマークであるHSKBenchmarkを紹介する。
HSKレベル3から6までをカバーし、676万のトークン、16K合成指導サンプル、30のテストトピック、言語的に基礎付けられた評価システムを含む。
我々の微調整LDMは、高度な人間の学習者と同等の性能を示し、人間に似た獲得特性を示す。
- 参考スコア(独自算出の注目度): 7.361713145305511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language acquisition is vital to revealing the nature of human language intelligence and has recently emerged as a promising perspective for improving the interpretability of large language models (LLMs). However, it is ethically and practically infeasible to conduct experiments that require controlling human learners' language inputs. This poses challenges for the verifiability and scalability of language acquisition modeling, particularly in Chinese second language acquisition (SLA). While LLMs provide a controllable and reproducible alternative, a systematic benchmark to support phase-wise modeling and assessment is still lacking. In this paper, we present HSKBenchmark, the first benchmark for staged modeling and writing assessment of LLMs in Chinese SLA. It covers HSK levels 3 to 6 and includes authentic textbooks with 6.76 million tokens, 16K synthetic instruction samples, 30 test topics, and a linguistically grounded evaluation system. To simulate human learning trajectories, we introduce a curriculum-tuning framework that trains models from beginner to advanced levels. An evaluation system is created to examine level-based grammar coverage, writing errors, lexical and syntactic complexity, and holistic scoring. We also build HSKAgent, fine-tuned on 10K learner compositions. Extensive experimental results demonstrate that HSKBenchmark not only models Chinese SLA effectively, but also serves as a reliable benchmark for dynamic writing assessment in LLMs. Our fine-tuned LLMs have writing performance on par with advanced human learners and exhibit human-like acquisition characteristics. The HSKBenchmark, HSKAgent, and checkpoints serve as foundational tools and resources, with the potential to pave the way for future research on language acquisition modeling and LLMs interpretability. Code and data are publicly available at: https://github.com/CharlesYang030/HSKB.
- Abstract(参考訳): 言語習得は、人間の言語知能の性質を明らかにする上で不可欠であり、最近、大きな言語モデル(LLM)の解釈可能性を改善するための有望な視点として現れました。
しかし、人間の学習者の言語入力の制御を必要とする実験を行うことは倫理的にも実用的にも不可能である。
これは、特に中国語の第2言語習得(SLA)において、言語獲得モデリングの妥当性とスケーラビリティの課題を提起する。
LLMは制御可能で再現可能な代替手段を提供するが、フェーズワイドモデリングとアセスメントをサポートするための体系的なベンチマークはまだ不足している。
本稿では、中国のSLAにおけるLLMのステージドモデリングと記述評価のための最初のベンチマークであるHSKBenchmarkについて述べる。
HSKレベル3から6までをカバーし、676万のトークン、16K合成指導サンプル、30のテストトピック、言語的に基礎付けられた評価システムを含む。
人間の学習軌跡をシミュレートするために,初心者から高度なレベルまでモデルを訓練するカリキュラムチューニングフレームワークを導入する。
レベルベース文法のカバレッジ、誤りの書き方、語彙と構文の複雑さ、総合的なスコアリングなどを調べるための評価システムを構築した。
HSKAgentも構築し、10Kの学習者構成を微調整します。
大規模な実験結果から,HSKBenchmarkは中国のSLAを効果的にモデル化するだけでなく,LCMの動的書き込み評価のための信頼性の高いベンチマークとしても機能することが示された。
我々の微調整LDMは、高度な人間の学習者と同等の性能を示し、人間に似た獲得特性を示す。
HSKBenchmark、HSKAgent、チェックポイントは基礎的なツールやリソースとして機能し、言語習得モデリングとLLMの解釈可能性に関する将来の研究の道を開く可能性がある。
コードとデータは、https://github.com/CharlesYang030/HSKBで公開されている。
関連論文リスト
- Human-Aligned Code Readability Assessment with Large Language Models [15.17270025276759]
本稿では,大規模言語モデル(LLM)に基づくコード可読性評価のための,最初の大規模ベンチマークであるCoReEvalを紹介する。
LLMはスケーラブルな代替手段を提供するが、可読性評価器としてのそれらの振る舞いは未検討のままである。
以上の結果から,人間定義の可読性次元に基礎を置く開発者誘導型プロンプトは,構造化コンテキストにおけるアライメントを改善することが示唆された。
論文 参考訳(メタデータ) (2025-10-18T17:00:52Z) - TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。
TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。
我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文 参考訳(メタデータ) (2025-08-07T15:11:17Z) - Prompting ChatGPT for Chinese Learning as L2: A CEFR and EBCL Level Study [0.45060992929802196]
本研究では,Large Language Models (LLM) をパーソナライズしたチャットボットとして利用するために,学習者が特定のプロンプトを使用する方法について検討する。
我々のゴールは、高周波文字リストを用いて口語と書字のスキルを統合するプロンプトを開発することであり、口語辞書の制作を制御することである。
その結果,レベルA1およびレベルA1+文字と関連する参照リストを組み込むことで,EBCL文字集合への準拠が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-25T15:30:13Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。