Fugu-MT 論文翻訳(概要): C-Pack: Packaged Resources To Advance General Chinese Embedding

論文の概要: C-Pack: Packaged Resources To Advance General Chinese Embedding

arxiv url: http://arxiv.org/abs/2309.07597v1
Date: Thu, 14 Sep 2023 10:57:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 15:16:06.817283
Title: C-Pack: Packaged Resources To Advance General Chinese Embedding
Title（参考訳）: C-Pack:中国の一般的な埋め込みを促進するためにパッケージ化されたリソース
Authors: Shitao Xiao and Zheng Liu and Peitian Zhang and Niklas Muennighof
Abstract要約: C-Packは、一般的な中国の埋め込みの分野を著しく前進させるリソースのパッケージである。 C-MTEBは6つのタスクと35のデータセットをカバーする中国のテキスト埋め込みのベンチマークである。 C-MTPは、埋め込みモデルをトレーニングするためのラベル付きおよびラベルなしの中国語コーパスからキュレートされた巨大なテキスト埋め込みデータセットである。 C-TEMは、複数のサイズをカバーする埋め込みモデルのファミリーである。
参考スコア（独自算出の注目度）: 6.9004592877749005
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce C-Pack, a package of resources that significantly advance the field of general Chinese embeddings. C-Pack includes three critical resources. 1) C-MTEB is a comprehensive benchmark for Chinese text embeddings covering 6 tasks and 35 datasets. 2) C-MTP is a massive text embedding dataset curated from labeled and unlabeled Chinese corpora for training embedding models. 3) C-TEM is a family of embedding models covering multiple sizes. Our models outperform all prior Chinese text embeddings on C-MTEB by up to +10% upon the time of the release. We also integrate and optimize the entire suite of training methods for C-TEM. Along with our resources on general Chinese embedding, we release our data and models for English text embeddings. The English models achieve state-of-the-art performance on MTEB benchmark; meanwhile, our released English data is 2 times larger than the Chinese data. All these resources are made publicly available at https://github.com/FlagOpen/FlagEmbedding.
Abstract（参考訳）: C-Packは、一般的な中国の埋め込みの分野を大きく前進させるリソースのパッケージである。 C-Packには3つの重要なリソースが含まれている。 1) C-MTEBは6タスクと35データセットをカバーする中国語テキスト埋め込みの総合ベンチマークである。 2) c-mtpは、ラベル付きおよびラベルなしの中国コーパスからキュレートされた大量のテキスト埋め込みデータセットである。 3) C-TEMは、複数のサイズをカバーする埋め込みモデルのファミリーである。弊社のモデルは、C-MTEB上の以前の中国語のテキスト埋め込みを、リリース時に最大で10%上回っている。また、c-temのトレーニング方法全体の統合と最適化も行っています。一般的な中国語の埋め込みに関するリソースとともに、英語のテキスト埋め込みのためのデータとモデルをリリースします。英語モデルはmtebベンチマークで最先端のパフォーマンスを達成していますが、私たちのリリースした英語データは中国のデータより2倍大きいのです。これらのリソースはすべて、https://github.com/flagopen/flagembeddingで公開されている。

関連論文リスト

TIB-STC: A Large-Scale Structured Tibetan Benchmark for Low-Resource Language Modeling [10.77750944881769]
我々は,大規模言語モデル(LLM)の開発と評価を支援するために設計された,最初の大規模,専門家による,マルチドメインデータセットであるTIB-STCを提案する。 TIB-STCは、文学、宗教、医学、法律、日々のコミュニケーションにまたがる100億以上のトークンを拡大し、伝統的な文法と様式的な豊かさを保っている。 Ti-MMLUやTi-SafetyBenchを含むチベット固有のタスクに対するTLUEベンチマークの評価は、TIB-STCが堅牢な指示追従と文化的に整合した生成を可能にしたことを示す。
論文参考訳（メタデータ） (2025-03-24T02:17:41Z)
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training [5.372706159579268]
OpenCSG Chinese Corpusは、中国語の訓練用に特別に設計された高品質なデータセットである。本発明のコーパスは、Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese、Smoltalk-chineseを含む。 OpenCSG Chinese Corpusの特徴は、高品質なテキスト、ドメイン間の多様なカバレッジ、スケーラブルで再現可能なデータキュレーションプロセスである。
論文参考訳（メタデータ） (2025-01-14T15:22:47Z)
ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information [29.57708536491853]
大規模かつ高品質な中国語データセットを多次元かつきめ細かい情報で構築するための新しいツールチェーン MDFG-tool を提案する。我々は,3.8TBの漢文テキスト2.0を公開し,各テキストは品質スコア,ドメインラベル,毒性ラベル,毒性スコアに関連付けられている。
論文参考訳（メタデータ） (2024-11-29T12:48:49Z)
ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with Effective Evaluation Model [40.23569361268597]
ノイズの多いWebデータから中国語のクリーンテキストを抽出するツールチェーンEvalWebを提案する。我々は,最大かつ最新の高品質な中国語Webテキストである ChineseWebText をリリースし,その内容は1.42TB で,各テキストは品質スコアに関連付けられている。
論文参考訳（メタデータ） (2023-11-02T11:13:51Z)
Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文参考訳（メタデータ） (2023-10-30T08:31:47Z)
Exploring Better Text Image Translation with Multimodal Codebook [39.12169843196739]
テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-27T08:41:18Z)
Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文参考訳（メタデータ） (2022-12-14T13:41:49Z)
Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。 CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文参考訳（メタデータ） (2021-10-16T10:59:39Z)
Revisiting Tri-training of Dependency Parsers [10.977756226111348]
依存関係解析のタスクにおいて,三者学習と事前学習による単語埋め込みという2つの半教師あり学習手法を比較した。言語固有のFastTextとELMoの埋め込みと多言語BERTの埋め込みについて検討する。事前学習した単語の埋め込みは、トリオトレーニングよりも非ラベルデータの利用が効果的であることがわかったが、この2つのアプローチはうまく組み合わせることができる。
論文参考訳（メタデータ） (2021-09-16T17:19:05Z)
N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。 textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文参考訳（メタデータ） (2020-09-24T11:45:39Z)
A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文参考訳（メタデータ） (2020-04-07T04:09:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。