論文の概要: CCAE: A Corpus of Chinese-based Asian Englishes
- arxiv url: http://arxiv.org/abs/2310.05381v1
- Date: Mon, 9 Oct 2023 03:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 07:49:09.598017
- Title: CCAE: A Corpus of Chinese-based Asian Englishes
- Title(参考訳): CCAE:中国系アジア系英語のコーパス
- Authors: Yang Liu, Melissa Xiaohui Qin, Long Wang, and Chao Huang
- Abstract要約: 本論文は,世界英語のパラダイムにおけるNLP技術の活用に向けた数少ない試みの1つである。
本報告では,中国系アジア英語6品種からなるコーパス,中国系アジア英語コーパスの概要について述べる。
- 参考スコア(独自算出の注目度): 8.563253881619124
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language models have been foundations in various scenarios of NLP
applications, but it has not been well applied in language variety studies,
even for the most popular language like English. This paper represents one of
the few initial efforts to utilize the NLP technology in the paradigm of World
Englishes, specifically in creating a multi-variety corpus for studying Asian
Englishes. We present an overview of the CCAE -- Corpus of Chinese-based Asian
English, a suite of corpora comprising six Chinese-based Asian English
varieties. It is based on 340 million tokens in 448 thousand web documents from
six regions. The ontology of data would make the corpus a helpful resource with
enormous research potential for Asian Englishes (especially for Chinese
Englishes for which there has not been a publicly accessible corpus yet so far)
and an ideal source for variety-specific language modeling and downstream
tasks, thus setting the stage for NLP-based World Englishes studies. And
preliminary experiments on this corpus reveal the practical value of CCAE.
Finally, we make CCAE available at
\href{https://huggingface.co/datasets/CCAE/CCAE-Corpus}{this https URL}.
- Abstract(参考訳): 言語モデルは、NLPアプリケーションの様々なシナリオにおいて基礎となっているが、英語のような最もポピュラーな言語でさえも、言語多様性の研究にはうまく適用されていない。
本稿では,世界英語のパラダイムにおけるNLP技術の活用,特にアジア英語学習のための多変量コーパスの創出について述べる。
本報告では,中国系アジア英語6品種からなるコーパス,中国系アジア英語コーパスの概要について述べる。
6つの地域の448万のwebドキュメントの3億4000万トークンに基づいている。
データのオントロジーにより、コーパスは、アジア系英語人(特に中国系英語人は、まだ一般にはアクセスできないコーパス)にとって膨大な研究可能性を持つ有用な資源となり、多種多様な言語モデリングや下流のタスクに理想的な情報源となり、NLPベースのWorld Englishes研究の舞台となる。
そして, このコーパスの予備実験により, CCAEの実用的価値を明らかにした。
最後に、CCAE を \href{https://huggingface.co/datasets/CCAE/CCAE-Corpus}{this https URL} で利用できるようにする。
関連論文リスト
- Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文 参考訳(メタデータ) (2024-06-17T01:54:27Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - YACLC: A Chinese Learner Corpus with Multidimensional Annotation [45.304130762057945]
大規模多次元アノテート中国語学習コーパスを構築した。
コーパスの原文やアノテーションを解析した結果,YACLCは相当の大きさで,アノテーションの品質が高いことがわかった。
論文 参考訳(メタデータ) (2021-12-30T13:07:08Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z) - Igbo-English Machine Translation: An Evaluation Benchmark [3.0151383439513753]
我々はIgboの標準的な機械翻訳ベンチマークデータセットを構築する取り組みについて論じる。
イグボ語は全世界で5000万人以上が話しており、話者の50%以上がナイジェリア南東部に住んでいる。
論文 参考訳(メタデータ) (2020-04-01T18:06:21Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。