論文の概要: CDTP: A Large-Scale Chinese Data-Text Pair Dataset for Comprehensive Evaluation of Chinese LLMs
- arxiv url: http://arxiv.org/abs/2510.06039v1
- Date: Tue, 07 Oct 2025 15:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.320471
- Title: CDTP: A Large-Scale Chinese Data-Text Pair Dataset for Comprehensive Evaluation of Chinese LLMs
- Title(参考訳): CDTP:中国のLLMの総合評価のための大規模中国語データテキストペアデータセット
- Authors: Chengwei Wu, Jiapu Wang, Mingyang Gao, Xingrui Zhuo, Jipeng Guo, Runlin Lei, Haoran Luo, Tianyu Chen, Haoyi Zhou, Shirui Pan, Zechao Li,
- Abstract要約: 我々は,中国語大言語モデル(CB-ECLLM)を評価するための総合的ベンチマークを提案する。
CB-ECLLMは、新たに構築された中国データテキストペア(CDTP)データセットに基づいている。
CDTPは700万以上のテキストペアで構成されており、それぞれが1つ以上の対応する3重テキストと、4つの重要なドメインにまたがる合計1500万の3重テキストで構成されている。
- 参考スコア(独自算出の注目度): 71.01843542502438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success across a wide range of natural language processing tasks. However, Chinese LLMs face unique challenges, primarily due to the dominance of unstructured free text and the lack of structured representations in Chinese corpora. While existing benchmarks for LLMs partially assess Chinese LLMs, they are still predominantly English-centric and fail to address the unique linguistic characteristics of Chinese, lacking structured datasets essential for robust evaluation. To address these challenges, we present a Comprehensive Benchmark for Evaluating Chinese Large Language Models (CB-ECLLM) based on the newly constructed Chinese Data-Text Pair (CDTP) dataset. Specifically, CDTP comprises over 7 million aligned text pairs, each consisting of unstructured text coupled with one or more corresponding triples, alongside a total of 15 million triples spanning four critical domains. The core contributions of CDTP are threefold: (i) enriching Chinese corpora with high-quality structured information; (ii) enabling fine-grained evaluation tailored to knowledge-driven tasks; and (iii) supporting multi-task fine-tuning to assess generalization and robustness across scenarios, including Knowledge Graph Completion, Triple-to-Text generation, and Question Answering. Furthermore, we conduct rigorous evaluations through extensive experiments and ablation studies to assess the effectiveness, Supervised Fine-Tuning (SFT), and robustness of the benchmark. To support reproducible research, we offer an open-source codebase and outline potential directions for future investigations based on our insights.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語処理タスクで大きな成功を収めています。
しかし、中国のLLMは、構造化されていない自由テキストの優位性と、中国のコーパスにおける構造化された表現の欠如により、独特な課題に直面している。
LLMの既存のベンチマークは部分的には中国語のLLMを評価するが、それでも英語中心であり、中国語の独特の言語的特徴に対処できず、頑健な評価に不可欠な構造化データセットが欠如している。
これらの課題に対処するために、新たに構築された中国語データテキストペア(CDTP)データセットに基づいて、CB-ECLLM(Comprehensive Benchmark for Evaluating Chinese Large Language Models)を提案する。
具体的には、CDTPは700万以上のテキストペアで構成され、それぞれが1つ以上の対応する3重テキストと、4つのクリティカルドメインにまたがる合計1500万の3重テキストで構成されている。
CDTPのコアコントリビューションは3つあります。
一 高品質な構造化情報を有する中国のコーパスを豊かにする。
二 知識駆動業務に適したきめ細かい評価を可能にすること、及び
3) 知識グラフ補完, トリプルテキスト生成, 質問応答など, シナリオ間の一般化と堅牢性を評価するために, マルチタスクの微調整を支援する。
さらに、広範囲な実験とアブレーション研究を通じて厳密な評価を行い、その効果、スーパーバイザードファインチューニング(SFT)、およびベンチマークの堅牢性を評価する。
再現可能な研究を支援するため、我々はオープンソースのコードベースを提供し、私たちの洞察に基づいて将来の調査の方向性を概説する。
関連論文リスト
- M3TQA: Massively Multilingual Multitask Table Question Answering [39.99483693397598]
m3TQA-Instructは97の言語にまたがる大規模なベンチマークである。
我々は、中国語と英語で50の現実世界のテーブルをキュレートしてm3TQAを構築し、DeepSeekとGPT-4oをベースとした堅牢な6ステップの翻訳パイプラインを適用した。
このベンチマークには、微妙なテーブル推論能力を評価するために設計された4つのタスクに2,916の専門的なアノテートされた質問応答ペアが含まれている。
論文 参考訳(メタデータ) (2025-08-22T09:57:40Z) - No Language Data Left Behind: A Comparative Study of CJK Language Datasets in the Hugging Face Ecosystem [8.435879948625105]
文化規範,研究環境,制度的実践がデータセットの可用性と品質をどのように形成するかを検討する。
本研究は,中国におけるデータセットの大規模かつ機関主導的な性質,韓国NLPにおける草の根コミュニティ主導の開発,日本コレクションへのエンターテイメントとサブカルチャーの重視,などを明らかにする。
我々は、将来のデータセットのキュレーションとコラボレーションのためのベストプラクティスについて議論し、3つの言語すべてにわたるリソース開発を強化することを目的として締めくくった。
論文 参考訳(メタデータ) (2025-07-06T10:32:32Z) - Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation [45.551223552275424]
視覚言語翻訳は、画像に埋め込まれた多言語テキストを正確に認識する必要がある課題である。
本稿では,データ品質,モデルアーキテクチャ,評価指標の3つの重要な視点からVLTを総合的に検討する。
論文 参考訳(メタデータ) (2025-06-13T14:23:38Z) - Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation [20.87296508045343]
我々は21種類のタスクに対する理解と生成の両方の能力を評価する総合的なベンチマークであるFuxiを紹介する。
我々は,理解タスクと生成タスクの間に大きなパフォーマンスギャップを生じさせ,モデルが有望な結果を得るためには理解が難しいが,生成タスクではかなり苦労する。
本研究は,古代中国のテキスト処理における現状の限界に注目し,今後のモデル開発への洞察を提供するものである。
論文 参考訳(メタデータ) (2025-03-20T04:26:40Z) - COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning [37.843051974342124]
実世界の様々な資源から派生した,厳密な人的検証を行う新しい中国語指導調律データセットであるCOIG-CQIAを紹介する。
我々はCOIG-CQIAに関する広範な実験を行い、それらを強力なベースラインモデルやデータセットと比較する。
実験の結果,COIG-CQIAでトレーニングしたモデルは,様々なベンチマークで高い競争性能を達成できた。
論文 参考訳(メタデータ) (2024-03-26T19:24:18Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。