論文の概要: Native Chinese Reader: A Dataset Towards Native-Level Chinese Machine
Reading Comprehension
- arxiv url: http://arxiv.org/abs/2112.06494v2
- Date: Tue, 14 Dec 2021 04:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 12:37:49.041519
- Title: Native Chinese Reader: A Dataset Towards Native-Level Chinese Machine
Reading Comprehension
- Title(参考訳): ネイティブ中国語読み上げ:ネイティブレベルの中国語機械読み理解のためのデータセット
- Authors: Shusheng Xu, Yichen Liu, Xiaoyu Yi, Siyuan Zhou, Huizi Li and Yi Wu
- Abstract要約: ネイティブ・チャイニーズ・リーダー(Native Chinese Reader)は、現代中国語と古典中国語の両方で特に長い記事を載せた、新しい機械読解データセットである。
NCRは、中国の高校生の言語習熟度を評価するために設計された、中国の高校の中国語コースの試験質問から収集される。
- 参考スコア(独自算出の注目度): 9.66226932673554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Native Chinese Reader (NCR), a new machine reading comprehension
(MRC) dataset with particularly long articles in both modern and classical
Chinese. NCR is collected from the exam questions for the Chinese course in
China's high schools, which are designed to evaluate the language proficiency
of native Chinese youth. Existing Chinese MRC datasets are either
domain-specific or focusing on short contexts of a few hundreds of characters
in modern Chinese only. By contrast, NCR contains 8390 documents with an
average length of 1024 characters covering a wide range of Chinese writing
styles, including modern articles, classical literature and classical poetry. A
total of 20477 questions on these documents also require strong reasoning
abilities and common sense to figure out the correct answers. We implemented
multiple baseline models using popular Chinese pre-trained models and
additionally launched an online competition using our dataset to examine the
limit of current methods. The best model achieves 59% test accuracy while human
evaluation shows an average accuracy of 79%, which indicates a significant
performance gap between current MRC models and native Chinese speakers. We
release the dataset at https://sites.google.com/view/native-chinese-reader/.
- Abstract(参考訳): 我々は、現代中国語と古典中国語の両方で特に長い記事を持つ新しい機械読解データセットであるNative Chinese Reader (NCR)を提示する。
NCRは、中国の高校生の言語習熟度を評価するために設計された、中国の高校の中国語コースの試験質問から収集される。
既存の中国のmrcデータセットはドメイン固有か、あるいは現代中国語のみの数百文字の短い文脈に焦点を当てている。
対照的に、NCRには8390通の文書があり、平均長は1024字で、漢文・古典・古典など多岐にわたる書体を網羅している。
これらの文書に関する合計20477の質問もまた、正しい答えを見つけるために強い推論能力と常識を必要とする。
人気の中国語事前学習モデルを用いて複数のベースラインモデルを実装し,現在の手法の限界を検討するためにデータセットを用いてオンラインコンペティションを開始した。
最適なモデルは59%の精度を達成し、人間の評価では平均79%の精度を示し、これは現在のMSCモデルと中国のネイティブスピーカーとの顕著なパフォーマンス差を示している。
私たちはデータセットをhttps://sites.google.com/view/native- chinese-reader/でリリースします。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation [49.41531871253317]
我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。
オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。
中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
論文 参考訳(メタデータ) (2024-07-01T08:35:37Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - CINO: A Chinese Minority Pre-trained Language Model [30.447739293695026]
中国語マイノリティ事前学習言語モデル(CINO)を提案する。
標準中国語、カントン諸語、その他の6つの少数言語をカバーしている。
論文 参考訳(メタデータ) (2022-02-28T06:02:06Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - Investigating Transfer Learning in Multilingual Pre-trained Language
Models through Chinese Natural Language Inference [11.096793445651313]
中国語と英語の自然言語推論(NLI)におけるXLM-Rの言語間移動能力について検討する。
言語移動をより深く理解するために、中国語の課題と敵対課題の4つのカテゴリを作成しました。
英語のNLIで訓練された言語間のモデルが、中国語のタスク間でうまく伝達されていることが分かりました。
論文 参考訳(メタデータ) (2021-06-07T22:00:18Z) - Hippocampus-heuristic Character Recognition Network for Zero-shot
Learning [3.720802292070508]
本稿では,Hippocampus-heuristic character Recognition Network (HCRN)を提案する。
HCRNは、急進派の訓練によってのみ、目に見えない漢字(すなわちゼロショット学習)を認識できる。
正確に予測できる漢字は約16,330文字で、500文字しか訓練されていない。
論文 参考訳(メタデータ) (2021-04-06T01:57:20Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。