論文の概要: C-Pack: Packaged Resources To Advance General Chinese Embedding
- arxiv url: http://arxiv.org/abs/2309.07597v1
- Date: Thu, 14 Sep 2023 10:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 15:16:06.817283
- Title: C-Pack: Packaged Resources To Advance General Chinese Embedding
- Title(参考訳): C-Pack:中国の一般的な埋め込みを促進するためにパッケージ化されたリソース
- Authors: Shitao Xiao and Zheng Liu and Peitian Zhang and Niklas Muennighof
- Abstract要約: C-Packは、一般的な中国の埋め込みの分野を著しく前進させるリソースのパッケージである。
C-MTEBは6つのタスクと35のデータセットをカバーする中国のテキスト埋め込みのベンチマークである。
C-MTPは、埋め込みモデルをトレーニングするためのラベル付きおよびラベルなしの中国語コーパスからキュレートされた巨大なテキスト埋め込みデータセットである。
C-TEMは、複数のサイズをカバーする埋め込みモデルのファミリーである。
- 参考スコア(独自算出の注目度): 6.9004592877749005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce C-Pack, a package of resources that significantly advance the
field of general Chinese embeddings. C-Pack includes three critical resources.
1) C-MTEB is a comprehensive benchmark for Chinese text embeddings covering 6
tasks and 35 datasets. 2) C-MTP is a massive text embedding dataset curated
from labeled and unlabeled Chinese corpora for training embedding models. 3)
C-TEM is a family of embedding models covering multiple sizes. Our models
outperform all prior Chinese text embeddings on C-MTEB by up to +10% upon the
time of the release. We also integrate and optimize the entire suite of
training methods for C-TEM. Along with our resources on general Chinese
embedding, we release our data and models for English text embeddings. The
English models achieve state-of-the-art performance on MTEB benchmark;
meanwhile, our released English data is 2 times larger than the Chinese data.
All these resources are made publicly available at
https://github.com/FlagOpen/FlagEmbedding.
- Abstract(参考訳): C-Packは、一般的な中国の埋め込みの分野を大きく前進させるリソースのパッケージである。
C-Packには3つの重要なリソースが含まれている。
1) C-MTEBは6タスクと35データセットをカバーする中国語テキスト埋め込みの総合ベンチマークである。
2) c-mtpは、ラベル付きおよびラベルなしの中国コーパスからキュレートされた大量のテキスト埋め込みデータセットである。
3) C-TEMは、複数のサイズをカバーする埋め込みモデルのファミリーである。
弊社のモデルは、C-MTEB上の以前の中国語のテキスト埋め込みを、リリース時に最大で10%上回っている。
また、c-temのトレーニング方法全体の統合と最適化も行っています。
一般的な中国語の埋め込みに関するリソースとともに、英語のテキスト埋め込みのためのデータとモデルをリリースします。
英語モデルはmtebベンチマークで最先端のパフォーマンスを達成していますが、私たちのリリースした英語データは中国のデータより2倍大きいのです。
これらのリソースはすべて、https://github.com/flagopen/flagembeddingで公開されている。
関連論文リスト
- ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with
Effective Evaluation Model [40.23569361268597]
ノイズの多いWebデータから中国語のクリーンテキストを抽出するツールチェーンEvalWebを提案する。
我々は,最大かつ最新の高品質な中国語Webテキストである ChineseWebText をリリースし,その内容は1.42TB で,各テキストは品質スコアに関連付けられている。
論文 参考訳(メタデータ) (2023-11-02T11:13:51Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Exploring Better Text Image Translation with Multimodal Codebook [39.12169843196739]
テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。
本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。
そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。
本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T08:41:18Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Revisiting Tri-training of Dependency Parsers [10.977756226111348]
依存関係解析のタスクにおいて,三者学習と事前学習による単語埋め込みという2つの半教師あり学習手法を比較した。
言語固有のFastTextとELMoの埋め込みと多言語BERTの埋め込みについて検討する。
事前学習した単語の埋め込みは、トリオトレーニングよりも非ラベルデータの利用が効果的であることがわかったが、この2つのアプローチはうまく組み合わせることができる。
論文 参考訳(メタデータ) (2021-09-16T17:19:05Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。