論文の概要: COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values
- arxiv url: http://arxiv.org/abs/2504.05535v1
- Date: Mon, 07 Apr 2025 22:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:29.548084
- Title: COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values
- Title(参考訳): COIG-P:人的価値のアライメントのための高品質で大規模中国の選好データセット
- Authors: M-A-P Team, Siwei Wu, Jincheng Ren, Xinrun Du, Shuyue Guo, Xingwei Qu, Yiming Liang, Jie Liu, Yunwen Li, Tianyu Zheng, Boyu Feng, Huaqing Yuan, Zenith Wang, Jiaheng Liu, Wenhao Huang, Chenglin Cai, Haoran Que, Jian Yang, Yuelin Bai, Zekun Moore Wang, Zhouliang Yu, Qunshu Lin, Ding Pan, Yuchen Jiang, Tiannan Wang, Wangchunshu Zhou, Shenzhi Wang, Xingyuan Bu, Minghao Liu, Guoyin Wang, Ge Zhang, Chenghua Lin,
- Abstract要約: 高品質で大規模な中国の嗜好データセットであるCOIG-Pを紹介する。
これは、Chat、Code、Math、Logic、Nove、Roleの6つの異なるドメインにまたがる1009万の中国の好みペアで構成されている。
スコアリングにLLMを使用する場合のオーバーヘッドを軽減するため,COIG-Pを用いて8Bサイズの中国語リワードモデルを訓練した。
- 参考スコア(独自算出の注目度): 43.09443095372083
- License:
- Abstract: Aligning large language models (LLMs) with human preferences has achieved remarkable success. However, existing Chinese preference datasets are limited by small scale, narrow domain coverage, and lack of rigorous data validation. Additionally, the reliance on human annotators for instruction and response labeling significantly constrains the scalability of human preference datasets. To address these challenges, we design an LLM-based Chinese preference dataset annotation pipeline with no human intervention. Specifically, we crawled and carefully filtered 92k high-quality Chinese queries and employed 15 mainstream LLMs to generate and score chosen-rejected response pairs. Based on it, we introduce COIG-P (Chinese Open Instruction Generalist - Preference), a high-quality, large-scale Chinese preference dataset, comprises 1,009k Chinese preference pairs spanning 6 diverse domains: Chat, Code, Math, Logic, Novel, and Role. Building upon COIG-P, to reduce the overhead of using LLMs for scoring, we trained a 8B-sized Chinese Reward Model (CRM) and meticulously constructed a Chinese Reward Benchmark (CRBench). Evaluation results based on AlignBench \citep{liu2024alignbenchbenchmarkingchinesealignment} show that that COIG-P significantly outperforms other Chinese preference datasets, and it brings significant performance improvements ranging from 2% to 12% for the Qwen2/2.5 and Infinity-Instruct-3M-0625 model series, respectively. The results on CRBench demonstrate that our CRM has a strong and robust scoring ability. We apply it to filter chosen-rejected response pairs in a test split of COIG-P, and our experiments show that it is comparable to GPT-4o in identifying low-quality samples while maintaining efficiency and cost-effectiveness. Our codes and data are released in https://github.com/multimodal-art-projection/COIG-P.
- Abstract(参考訳): 人間の好みで大きな言語モデル(LLM)を調整することは、驚くべき成功を収めた。
しかし、既存の中国の嗜好データセットは、小さなスケール、狭いドメインカバレッジ、厳密なデータ検証の欠如によって制限されている。
さらに、命令と応答ラベルのアノテータへの依存は、人間の嗜好データセットのスケーラビリティを著しく制限する。
これらの課題に対処するため、人間の介入を伴わないLLMベースの中国語嗜好データセットデータセットパイプラインを設計する。
具体的には、92kの高品質な中国語クエリをクロールして慎重にフィルタリングし、15のメインストリームLCMを使用して、選択された拒絶応答ペアを生成し、スコア付けした。
そこで我々は,高品質で大規模な中国の嗜好データセットであるCOIG-Pを導入し,6つの異なる領域(チャット,コード,数学,論理,ノベル,ロール)にまたがる1009万の中国語選好ペアを構成した。
スコアリングにLLMを使用する際のオーバーヘッドを軽減するため,COIG-Pを用いて8Bサイズの中国リワードモデル(CRM)を訓練し,CRBenchを精巧に構築した。
AlignBench \citep{liu2024alignbenchmarkingchinesealignment} に基づく評価結果は、COIG-Pが他の中国の嗜好データセットよりも大幅に優れており、それぞれQwen2/2.5およびInfinity-3M-0625モデルシリーズの2%から12%の大幅な性能向上をもたらすことを示している。
CRBenchの結果は、CRMが強力で堅牢なスコアリング能力を持っていることを示している。
提案手法はCOIG-Pの試験分割で選択された応答対をフィルタし,低品質試料の同定において,効率とコスト効率を保ちながらGPT-4oに匹敵することを示した。
私たちのコードとデータはhttps://github.com/multimodal-art-projection/COIG-P.comで公開されています。
関連論文リスト
- OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training [5.372706159579268]
OpenCSG Chinese Corpusは、中国語の訓練用に特別に設計された高品質なデータセットである。
本発明のコーパスは、Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese、Smoltalk-chineseを含む。
OpenCSG Chinese Corpusの特徴は、高品質なテキスト、ドメイン間の多様なカバレッジ、スケーラブルで再現可能なデータキュレーションプロセスである。
論文 参考訳(メタデータ) (2025-01-14T15:22:47Z) - PERL: Pinyin Enhanced Rephrasing Language Model for Chinese ASR N-best Error Correction [0.0]
N-best 修正シナリオに特化して設計された Pinyin Enhanced Rephrasing Language Model (PERL) を提案する。
Aishell-1データセットと新たに提案したDoADデータセットについて実験を行った。
論文 参考訳(メタデータ) (2024-12-04T11:28:52Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning [37.843051974342124]
実世界の様々な資源から派生した,厳密な人的検証を行う新しい中国語指導調律データセットであるCOIG-CQIAを紹介する。
我々はCOIG-CQIAに関する広範な実験を行い、それらを強力なベースラインモデルやデータセットと比較する。
実験の結果,COIG-CQIAでトレーニングしたモデルは,様々なベンチマークで高い競争性能を達成できた。
論文 参考訳(メタデータ) (2024-03-26T19:24:18Z) - CURATRON: Complete and Robust Preference Data for Rigorous Alignment of Large Language Models [1.6339731044538859]
本稿では,大規模言語モデルと人間の価値観を協調する上での課題について考察する。
本稿では,LLMのレジリエンスを高めるために,堅牢で悪意のあるAIパイプラインデータセットを提案する。
論文 参考訳(メタデータ) (2024-03-05T07:58:12Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - CLEVA: Chinese Language Models EVAluation Platform [92.42981537317817]
CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。
当社のプラットフォームでは,LLMのパフォーマンスをさまざまな次元で評価するために標準化されたワークフローを採用し,定期的に競合するリーダボードを更新しています。
汚染を軽減するため、CLEVAは、新しいデータのかなりの割合をキュレーションし、各リーダーボードラウンドのユニークなサブセットを保証するサンプリング戦略を開発する。
マウスクリック数回とモデルAPIを必要とする使い勝手の良いインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。
論文 参考訳(メタデータ) (2023-08-09T09:11:31Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。