論文の概要: Enriching the Korean Learner Corpus with Multi-reference Annotations and Rubric-Based Scoring
- arxiv url: http://arxiv.org/abs/2505.00261v1
- Date: Thu, 01 May 2025 03:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.205985
- Title: Enriching the Korean Learner Corpus with Multi-reference Annotations and Rubric-Based Scoring
- Title(参考訳): 韓国語学習者コーパスの多参照アノテーションとルーブリック・スコーリングによる強化
- Authors: Jayoung Song, KyungTae Lim, Jungyeul Park,
- Abstract要約: 我々は,文法的誤り訂正基準を追加することで,韓国語学習者コーパスを強化する。
韓国国立言語研究所のガイドラインに沿うルーブリックベースのスコアでコーパスを充実させます。
- 参考スコア(独自算出の注目度): 2.824980053889876
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite growing global interest in Korean language education, there remains a significant lack of learner corpora tailored to Korean L2 writing. To address this gap, we enhance the KoLLA Korean learner corpus by adding multiple grammatical error correction (GEC) references, thereby enabling more nuanced and flexible evaluation of GEC systems, and reflects the variability of human language. Additionally, we enrich the corpus with rubric-based scores aligned with guidelines from the Korean National Language Institute, capturing grammatical accuracy, coherence, and lexical diversity. These enhancements make KoLLA a robust and standardized resource for research in Korean L2 education, supporting advancements in language learning, assessment, and automated error correction.
- Abstract(参考訳): 韓国語教育への世界的関心は高まっているが、韓国のL2書記に合わせた学習者コーパスが不足している。
このギャップに対処するために,複数の文法的誤り訂正(GEC)参照を追加することで,韓国の学習者コーパスを強化する。
さらに,韓国国立言語研究所のガイドラインに沿うルーリックベースのスコアでコーパスを充実させ,文法的精度,コヒーレンス,語彙的多様性を把握した。
これらの強化により、KoLLAは韓国のL2教育研究のための堅牢で標準化されたリソースとなり、言語学習の進歩、評価、自動誤り訂正をサポートする。
関連論文リスト
- Open Ko-LLM Leaderboard2: Bridging Foundational and Practical Evaluation for Korean LLMs [7.924819546105335]
我々は、以前のOpen Ko-LLM Leaderboardの改良版であるOpen Ko-LLM Leaderboard2を提案する。
オリジナルのベンチマークは、現実の能力とより密に整合した新しいタスクに完全に置き換えられている。
韓国語の特徴をよりよく反映するために、4つの新しい韓国語ベンチマークが導入されている。
論文 参考訳(メタデータ) (2024-10-16T10:49:22Z) - RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining [0.0]
韓国語処理に特化したモデルであるRedWhaleを紹介する。
RedWhaleは、韓国の包括的コーパス前処理パイプラインを含む効率的な継続事前訓練アプローチを用いて開発されている。
実験の結果、RedWhaleは韓国のNLPベンチマークで他の主要なモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:49:41Z) - Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.75550640881761]
非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。
我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。
実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文 参考訳(メタデータ) (2024-06-13T04:10:17Z) - Multilingual Pretraining and Instruction Tuning Improve Cross-Lingual Knowledge Alignment, But Only Shallowly [53.04368883943773]
これに対処する2つのアプローチ、すなわち、多言語事前学習と多言語命令チューニングを提案する。
性能, 一貫性, 導電率レベルにおけるLLMの言語間知識アライメントを評価するために, CLiKAを提案する。
その結果、多言語事前学習と指導訓練は、多言語間知識アライメントに有用であるが、訓練戦略を慎重に設計する必要があることが示唆された。
論文 参考訳(メタデータ) (2024-04-06T15:25:06Z) - HyperCLOVA X Technical Report [119.94633129762133]
韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。
HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。
このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-04-02T13:48:49Z) - HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文 参考訳(メタデータ) (2023-09-06T04:38:16Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - YACLC: A Chinese Learner Corpus with Multidimensional Annotation [45.304130762057945]
大規模多次元アノテート中国語学習コーパスを構築した。
コーパスの原文やアノテーションを解析した結果,YACLCは相当の大きさで,アノテーションの品質が高いことがわかった。
論文 参考訳(メタデータ) (2021-12-30T13:07:08Z) - LXPER Index 2.0: Improving Text Readability Assessment Model for L2
English Students in Korea [1.7006003864727408]
本稿では韓国におけるL2英語学習者のテキスト可読性評価モデルについて検討する。
我々は,韓国のELTカリキュラムにおけるテキストの読みやすさ評価を,CoKEC-textでトレーニングし,精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-10-26T07:03:14Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。