論文の概要: YACLC: A Chinese Learner Corpus with Multidimensional Annotation
- arxiv url: http://arxiv.org/abs/2112.15043v1
- Date: Thu, 30 Dec 2021 13:07:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 14:26:35.976087
- Title: YACLC: A Chinese Learner Corpus with Multidimensional Annotation
- Title(参考訳): YACLC:多次元アノテーションを用いた中国語学習者コーパス
- Authors: Yingying Wang, Cunliang Kong, Liner Yang, Yijun Wang, Xiaorong Lu,
Renfen Hu, Shan He, Zhenghao Liu, Yun Chen, Erhong Yang, Maosong Sun
- Abstract要約: 大規模多次元アノテート中国語学習コーパスを構築した。
コーパスの原文やアノテーションを解析した結果,YACLCは相当の大きさで,アノテーションの品質が高いことがわかった。
- 参考スコア(独自算出の注目度): 45.304130762057945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learner corpus collects language data produced by L2 learners, that is second
or foreign-language learners. This resource is of great relevance for second
language acquisition research, foreign-language teaching, and automatic
grammatical error correction. However, there is little focus on learner corpus
for Chinese as Foreign Language (CFL) learners. Therefore, we propose to
construct a large-scale, multidimensional annotated Chinese learner corpus. To
construct the corpus, we first obtain a large number of topic-rich texts
generated by CFL learners. Then we design an annotation scheme including a
sentence acceptability score as well as grammatical error and fluency-based
corrections. We build a crowdsourcing platform to perform the annotation
effectively (https://yaclc.wenmind.net). We name the corpus YACLC (Yet Another
Chinese Learner Corpus) and release it as part of the CUGE benchmark
(http://cuge.baai.ac.cn). By analyzing the original sentences and annotations
in the corpus, we found that YACLC has a considerable size and very high
annotation quality. We hope this corpus can further enhance the studies on
Chinese International Education and Chinese automatic grammatical error
correction.
- Abstract(参考訳): 学習者コーパスはL2学習者が生成する言語データを収集する。
このリソースは、第二言語習得研究、外国語教育、自動文法誤り訂正に大いに関係している。
しかし、外国語学習者(cfl)としての中国語学習者コーパスにはほとんど焦点が当てられていない。
そこで本研究では,大規模多次元アノテート中国語学習コーパスの構築を提案する。
このコーパスを構築するために,まずcfl学習者が生成したトピックリッチテキストを多数取得する。
そして,文の受理性スコアと文法的誤りと流布に基づく訂正を含むアノテーションスキームを設計する。
アノテーションを効果的に実行するクラウドソーシングプラットフォームを構築しています(https://yaclc.wenmind.net)。
コーパスYACLC(Yet Another Chinese Learner Corpus)をCUGEベンチマーク(http://cuge.baai.ac.cn)の一部としてリリースします。
コーパスの原文やアノテーションを解析した結果,YACLCは相当の大きさで,アノテーションの品質が高いことがわかった。
このコーパスが、中国国際教育と中国の自動文法誤り訂正の研究をさらに強化することを期待している。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Multilingual Coreference Resolution with Harmonized Annotations [0.0]
新たに作成した多言語コーパスCorefUDを用いてコア参照分解実験を行う。
チェコ語、ロシア語、ポーランド語、ドイツ語、スペイン語、カタルーニャ語などです。
マルチリンガルな実験でトレーニングデータを組み合わせて、スラヴ語とすべての言語の2つの結合モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-07-26T10:11:06Z) - Kosp2e: Korean Speech to English Translation Corpus [11.44330742875498]
韓国語音声をエンドツーエンドで英文に翻訳するコーパスであるkosp2eを紹介する。
我々は,オープンライセンス音声認識コーパス,翻訳コーパス,音声言語コーパスを採用して,データセットを一般公開する。
論文 参考訳(メタデータ) (2021-07-06T20:34:06Z) - UA-GEC: Grammatical Error Correction and Fluency Corpus for the
Ukrainian Language [0.0]
これはウクライナ語のための最初の文法的誤り訂正コーパスです。
プロの証明リーダーがコーパスを訂正し、流血、文法、句読点、綴りに関する誤りを注釈した。
このコーパスはウクライナのGECシステムの開発と評価に使用できます。
論文 参考訳(メタデータ) (2021-03-31T11:18:36Z) - CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language
Model [15.469228003507919]
CLUE(CLUECorpus 2020)の中国コーパスについて紹介する。
100Gの生コーパスが35億文字で、Common Crawlから回収される。
われわれは8Kの中国語彙を新たにリリースし、これはGoogleがリリースした中国ベルト語で使われている語彙の3分の1にすぎない。
論文 参考訳(メタデータ) (2020-03-03T06:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。