論文の概要: C-Pack: Packed Resources For General Chinese Embeddings
- arxiv url: http://arxiv.org/abs/2309.07597v5
- Date: Tue, 24 Sep 2024 03:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 14:28:50.513125
- Title: C-Pack: Packed Resources For General Chinese Embeddings
- Title(参考訳): C-Pack:中国の一般的な埋め込みのためのパッケージ化リソース
- Authors: Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff, Defu Lian, Jian-Yun Nie,
- Abstract要約: C-Packは、一般的な中国の埋め込みの分野を著しく前進させるリソースのパッケージである。
C-MTEBは6つのタスクと35のデータセットをカバーする中国のテキスト埋め込みのベンチマークである。
C-MTPは、埋め込みモデルをトレーニングするためのラベル付きおよびラベルなしの中国語コーパスからキュレートされた巨大なテキスト埋め込みデータセットである。
C-TEMは、複数のサイズをカバーする埋め込みモデルのファミリーである。
- 参考スコア(独自算出の注目度): 52.42712437324304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce C-Pack, a package of resources that significantly advance the field of general Chinese embeddings. C-Pack includes three critical resources. 1) C-MTEB is a comprehensive benchmark for Chinese text embeddings covering 6 tasks and 35 datasets. 2) C-MTP is a massive text embedding dataset curated from labeled and unlabeled Chinese corpora for training embedding models. 3) C-TEM is a family of embedding models covering multiple sizes. Our models outperform all prior Chinese text embeddings on C-MTEB by up to +10% upon the time of the release. We also integrate and optimize the entire suite of training methods for C-TEM. Along with our resources on general Chinese embedding, we release our data and models for English text embeddings. The English models achieve state-of-the-art performance on MTEB benchmark; meanwhile, our released English data is 2 times larger than the Chinese data. All these resources are made publicly available at https://github.com/FlagOpen/FlagEmbedding.
- Abstract(参考訳): C-Packは、一般的な中国の埋め込みの分野を著しく前進させるリソースのパッケージである。
C-Packには3つの重要なリソースが含まれている。
1) C-MTEBは6つのタスクと35のデータセットをカバーする中国語テキスト埋め込みの総合ベンチマークである。
2) C-MTPは, ラベル付き, ラベルなしの中国語コーパスを用いて, 埋め込みモデルを訓練するための大量のテキスト埋め込みデータセットである。
3) C-TEMは、複数のサイズをカバーする埋め込みモデルのファミリーである。
弊社のモデルは、C-MTEB上の以前の中国語のテキスト埋め込みを、リリース時に最大で10%上回っている。
また、C-TEMのための一連のトレーニング方法を統合し、最適化します。
一般的な中国語の埋め込みに関するリソースに加えて、英語のテキスト埋め込みのためのデータとモデルもリリースしています。
MTEBベンチマークでは、英語モデルは最先端のパフォーマンスを達成していますが、我々のリリースした英語データは、中国のデータより2倍も大きいのです。
これらのリソースはすべてhttps://github.com/FlagOpen/FlagEmbedding.comで公開されています。
関連論文リスト
- ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with
Effective Evaluation Model [40.23569361268597]
ノイズの多いWebデータから中国語のクリーンテキストを抽出するツールチェーンEvalWebを提案する。
我々は,最大かつ最新の高品質な中国語Webテキストである ChineseWebText をリリースし,その内容は1.42TB で,各テキストは品質スコアに関連付けられている。
論文 参考訳(メタデータ) (2023-11-02T11:13:51Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Exploring Better Text Image Translation with Multimodal Codebook [39.12169843196739]
テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。
本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。
そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。
本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T08:41:18Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Revisiting Tri-training of Dependency Parsers [10.977756226111348]
依存関係解析のタスクにおいて,三者学習と事前学習による単語埋め込みという2つの半教師あり学習手法を比較した。
言語固有のFastTextとELMoの埋め込みと多言語BERTの埋め込みについて検討する。
事前学習した単語の埋め込みは、トリオトレーニングよりも非ラベルデータの利用が効果的であることがわかったが、この2つのアプローチはうまく組み合わせることができる。
論文 参考訳(メタデータ) (2021-09-16T17:19:05Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。