論文の概要: C-Pack: Packaged Resources To Advance General Chinese Embedding
- arxiv url: http://arxiv.org/abs/2309.07597v3
- Date: Sat, 20 Apr 2024 09:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:42:43.589518
- Title: C-Pack: Packaged Resources To Advance General Chinese Embedding
- Title(参考訳): C-Pack:中国の一般的な埋め込みを促進するためにパッケージ化されたリソース
- Authors: Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff,
- Abstract要約: C-Packは、一般的な中国の埋め込みの分野を著しく前進させるリソースのパッケージである。
C-MTEBは6つのタスクと35のデータセットをカバーする中国のテキスト埋め込みのベンチマークである。
C-MTPは、埋め込みモデルをトレーニングするためのラベル付きおよびラベルなしの中国語コーパスからキュレートされた巨大なテキスト埋め込みデータセットである。
C-TEMは、複数のサイズをカバーする埋め込みモデルのファミリーである。
- 参考スコア(独自算出の注目度): 14.413674898421432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce C-Pack, a package of resources that significantly advance the field of general Chinese embeddings. C-Pack includes three critical resources. 1) C-MTEB is a comprehensive benchmark for Chinese text embeddings covering 6 tasks and 35 datasets. 2) C-MTP is a massive text embedding dataset curated from labeled and unlabeled Chinese corpora for training embedding models. 3) C-TEM is a family of embedding models covering multiple sizes. Our models outperform all prior Chinese text embeddings on C-MTEB by up to +10% upon the time of the release. We also integrate and optimize the entire suite of training methods for C-TEM. Along with our resources on general Chinese embedding, we release our data and models for English text embeddings. The English models achieve state-of-the-art performance on MTEB benchmark; meanwhile, our released English data is 2 times larger than the Chinese data. All these resources are made publicly available at https://github.com/FlagOpen/FlagEmbedding.
- Abstract(参考訳): C-Packは、一般的な中国の埋め込みの分野を著しく前進させるリソースのパッケージである。
C-Packには3つの重要なリソースが含まれている。
1) C-MTEBは6つのタスクと35のデータセットをカバーする中国語テキスト埋め込みの総合ベンチマークである。
2) C-MTPは, ラベル付き, ラベルなしの中国語コーパスを用いて, 埋め込みモデルを訓練するための大量のテキスト埋め込みデータセットである。
3) C-TEMは、複数のサイズをカバーする埋め込みモデルのファミリーである。
弊社のモデルは、C-MTEB上の以前の中国語のテキスト埋め込みを、リリース時に最大で10%上回っている。
また、C-TEMのための一連のトレーニング方法を統合し、最適化します。
一般的な中国語の埋め込みに関するリソースに加えて、英語のテキスト埋め込みのためのデータとモデルもリリースしています。
MTEBベンチマークでは、英語モデルは最先端のパフォーマンスを達成していますが、我々のリリースした英語データは、中国のデータより2倍も大きいのです。
これらのリソースはすべてhttps://github.com/FlagOpen/FlagEmbedding.comで公開されています。
関連論文リスト
- OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training [5.372706159579268]
OpenCSG Chinese Corpusは、中国語の訓練用に特別に設計された高品質なデータセットである。
本発明のコーパスは、Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese、Smoltalk-chineseを含む。
OpenCSG Chinese Corpusの特徴は、高品質なテキスト、ドメイン間の多様なカバレッジ、スケーラブルで再現可能なデータキュレーションプロセスである。
論文 参考訳(メタデータ) (2025-01-14T15:22:47Z) - ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information [29.57708536491853]
大規模かつ高品質な中国語データセットを多次元かつきめ細かい情報で構築するための新しいツールチェーン MDFG-tool を提案する。
我々は,3.8TBの漢文テキスト2.0を公開し,各テキストは品質スコア,ドメインラベル,毒性ラベル,毒性スコアに関連付けられている。
論文 参考訳(メタデータ) (2024-11-29T12:48:49Z) - ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with
Effective Evaluation Model [40.23569361268597]
ノイズの多いWebデータから中国語のクリーンテキストを抽出するツールチェーンEvalWebを提案する。
我々は,最大かつ最新の高品質な中国語Webテキストである ChineseWebText をリリースし,その内容は1.42TB で,各テキストは品質スコアに関連付けられている。
論文 参考訳(メタデータ) (2023-11-02T11:13:51Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。