論文の概要: COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values
- arxiv url: http://arxiv.org/abs/2504.05535v1
- Date: Mon, 07 Apr 2025 22:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 03:25:44.906225
- Title: COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values
- Title(参考訳): COIG-P:人的価値のアライメントのための高品質で大規模中国の選好データセット
- Authors: M-A-P Team, Siwei Wu, Jincheng Ren, Xinrun Du, Shuyue Guo, Xingwei Qu, Yiming Liang, Jie Liu, Yunwen Li, Tianyu Zheng, Boyu Feng, Huaqing Yuan, Zenith Wang, Jiaheng Liu, Wenhao Huang, Chenglin Cai, Haoran Que, Jian Yang, Yuelin Bai, Zekun Moore Wang, Zhouliang Yu, Qunshu Lin, Ding Pan, Yuchen Jiang, Tiannan Wang, Wangchunshu Zhou, Shenzhi Wang, Xingyuan Bu, Minghao Liu, Guoyin Wang, Ge Zhang, Chenghua Lin,
- Abstract要約: 高品質で大規模な中国の嗜好データセットであるCOIG-Pを紹介する。
これは、Chat、Code、Math、Logic、Nove、Roleの6つの異なるドメインにまたがる1009万の中国の好みペアで構成されている。
スコアリングにLLMを使用する場合のオーバーヘッドを軽減するため,COIG-Pを用いて8Bサイズの中国語リワードモデルを訓練した。
- 参考スコア(独自算出の注目度): 43.09443095372083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) with human preferences has achieved remarkable success. However, existing Chinese preference datasets are limited by small scale, narrow domain coverage, and lack of rigorous data validation. Additionally, the reliance on human annotators for instruction and response labeling significantly constrains the scalability of human preference datasets. To address these challenges, we design an LLM-based Chinese preference dataset annotation pipeline with no human intervention. Specifically, we crawled and carefully filtered 92k high-quality Chinese queries and employed 15 mainstream LLMs to generate and score chosen-rejected response pairs. Based on it, we introduce COIG-P (Chinese Open Instruction Generalist - Preference), a high-quality, large-scale Chinese preference dataset, comprises 1,009k Chinese preference pairs spanning 6 diverse domains: Chat, Code, Math, Logic, Novel, and Role. Building upon COIG-P, to reduce the overhead of using LLMs for scoring, we trained a 8B-sized Chinese Reward Model (CRM) and meticulously constructed a Chinese Reward Benchmark (CRBench). Evaluation results based on AlignBench \citep{liu2024alignbenchbenchmarkingchinesealignment} show that that COIG-P significantly outperforms other Chinese preference datasets, and it brings significant performance improvements ranging from 2% to 12% for the Qwen2/2.5 and Infinity-Instruct-3M-0625 model series, respectively. The results on CRBench demonstrate that our CRM has a strong and robust scoring ability. We apply it to filter chosen-rejected response pairs in a test split of COIG-P, and our experiments show that it is comparable to GPT-4o in identifying low-quality samples while maintaining efficiency and cost-effectiveness. Our codes and data are released in https://github.com/multimodal-art-projection/COIG-P.
- Abstract(参考訳): 人間の好みで大きな言語モデル(LLM)を調整することは、驚くべき成功を収めた。
しかし、既存の中国の嗜好データセットは、小さなスケール、狭いドメインカバレッジ、厳密なデータ検証の欠如によって制限されている。
さらに、命令と応答ラベルのアノテータへの依存は、人間の嗜好データセットのスケーラビリティを著しく制限する。
これらの課題に対処するため、人間の介入を伴わないLLMベースの中国語嗜好データセットデータセットパイプラインを設計する。
具体的には、92kの高品質な中国語クエリをクロールして慎重にフィルタリングし、15のメインストリームLCMを使用して、選択された拒絶応答ペアを生成し、スコア付けした。
そこで我々は,高品質で大規模な中国の嗜好データセットであるCOIG-Pを導入し,6つの異なる領域(チャット,コード,数学,論理,ノベル,ロール)にまたがる1009万の中国語選好ペアを構成した。
スコアリングにLLMを使用する際のオーバーヘッドを軽減するため,COIG-Pを用いて8Bサイズの中国リワードモデル(CRM)を訓練し,CRBenchを精巧に構築した。
AlignBench \citep{liu2024alignbenchmarkingchinesealignment} に基づく評価結果は、COIG-Pが他の中国の嗜好データセットよりも大幅に優れており、それぞれQwen2/2.5およびInfinity-3M-0625モデルシリーズの2%から12%の大幅な性能向上をもたらすことを示している。
CRBenchの結果は、CRMが強力で堅牢なスコアリング能力を持っていることを示している。
提案手法はCOIG-Pの試験分割で選択された応答対をフィルタし,低品質試料の同定において,効率とコスト効率を保ちながらGPT-4oに匹敵することを示した。
私たちのコードとデータはhttps://github.com/multimodal-art-projection/COIG-P.comで公開されています。
関連論文リスト
- DataMan: Data Manager for Pre-training Large Language Models [39.677609311769146]
既存の方法は限定的な直観に依存しており、包括的で明確なガイドラインを欠いている。
テキストパープレキシティ異常の原因から14の品質基準を導出し、ドメイン混合をサポートするために15の共通アプリケーションドメインを導入する。
実験では、DataManを使って30Bトークンを選択し、1.3B-パラメータ言語モデルをトレーニングし、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-26T18:01:19Z) - PERL: Pinyin Enhanced Rephrasing Language Model for Chinese ASR N-best Error Correction [0.0]
N-best 修正シナリオに特化して設計された Pinyin Enhanced Rephrasing Language Model (PERL) を提案する。
Aishell-1データセットと新たに提案したDoADデータセットについて実験を行った。
論文 参考訳(メタデータ) (2024-12-04T11:28:52Z) - KPC-cF: Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering [0.0]
本研究は,韓国語などの低リソース言語におけるABSAの直感的で効果的な枠組みを提案する。
翻訳されたベンチマークと未ラベルの韓国データを統合することで、予測ラベルを最適化する。
英語のABSAと比較すると,F1スコアと精度に約3%の差が認められた。
論文 参考訳(メタデータ) (2024-06-29T07:01:51Z) - COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning [37.843051974342124]
実世界の様々な資源から派生した,厳密な人的検証を行う新しい中国語指導調律データセットであるCOIG-CQIAを紹介する。
我々はCOIG-CQIAに関する広範な実験を行い、それらを強力なベースラインモデルやデータセットと比較する。
実験の結果,COIG-CQIAでトレーニングしたモデルは,様々なベンチマークで高い競争性能を達成できた。
論文 参考訳(メタデータ) (2024-03-26T19:24:18Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - CLEVA: Chinese Language Models EVAluation Platform [92.42981537317817]
CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。
当社のプラットフォームでは,LLMのパフォーマンスをさまざまな次元で評価するために標準化されたワークフローを採用し,定期的に競合するリーダボードを更新しています。
汚染を軽減するため、CLEVAは、新しいデータのかなりの割合をキュレーションし、各リーダーボードラウンドのユニークなサブセットを保証するサンプリング戦略を開発する。
マウスクリック数回とモデルAPIを必要とする使い勝手の良いインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。
論文 参考訳(メタデータ) (2023-08-09T09:11:31Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。