Fugu-MT 論文翻訳(概要): COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning

論文の概要: COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning

arxiv url: http://arxiv.org/abs/2403.18058v1
Date: Tue, 26 Mar 2024 19:24:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 21:14:58.230793
Title: COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning
Title（参考訳）: COIG-CQIA:中国におけるインストラクションの微調整に必要な品質
Authors: Yuelin Bai, Xinrun Du, Yiming Liang, Yonggang Jin, Ziqiang Liu, Junting Zhou, Tianyu Zheng, Xincheng Zhang, Nuo Ma, Zekun Wang, Ruibin Yuan, Haihong Wu, Hongquan Lin, Wenhao Huang, Jiajun Zhang, Wenhu Chen, Chenghua Lin, Jie Fu, Min Yang, Shiwen Ni, Ge Zhang,
Abstract要約: 高品質な中国語命令チューニングデータセットであるCOIG-CQIAを紹介する。我々の目標は、モデル行動と人間の相互作用をよりよく整合させる、多種多様な命令チューニングデータセットを構築することである。我々はCQIAの様々なサブセットで様々なスケールのモデルを訓練し、詳細な評価と分析を行った。
参考スコア（独自算出の注目度）: 57.600941792026006
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, there have been significant advancements in large language models (LLMs), particularly focused on the English language. These advancements have enabled these LLMs to understand and execute complex instructions with unprecedented accuracy and fluency. However, despite these advancements, there remains a noticeable gap in the development of Chinese instruction tuning. The unique linguistic features and cultural depth of the Chinese language pose challenges for instruction tuning tasks. Existing datasets are either derived from English-centric LLMs or are ill-suited for aligning with the interaction patterns of real-world Chinese users. To bridge this gap, we introduce COIG-CQIA, a high-quality Chinese instruction tuning dataset. Our aim is to build a diverse, wide-ranging instruction-tuning dataset to better align model behavior with human interactions. To this end, we collect a high-quality human-written corpus from various sources on the Chinese Internet, including Q&A communities, Wikis, examinations, and existing NLP datasets. This corpus was rigorously filtered and carefully processed to form the COIG-CQIA dataset. Furthermore, we train models of various scales on different subsets of CQIA, following in-depth evaluation and analyses. The findings from our experiments offer valuable insights for selecting and developing Chinese instruction-tuning datasets. We also find that models trained on CQIA-Subset achieve competitive results in human assessment as well as knowledge and security benchmarks. Data are available at https://huggingface.co/datasets/m-a-p/COIG-CQIA
Abstract（参考訳）: 近年、特に英語に焦点を当てた大規模言語モデル(LLM)が大幅に進歩している。これらの進歩により、これらのLSMは前例のない精度と流布度で複雑な命令を理解し、実行できるようになった。しかし、これらの進歩にもかかわらず、中国の指導指導の発展には大きなギャップが残っている。中国語の独特の言語的特徴と文化的な深さは、チューニングタスクの指導に挑戦する。既存のデータセットは、英語中心のLLMから派生したものか、現実の中国人ユーザのインタラクションパターンに適合するのに不適である。このギャップを埋めるために、高品質な中国語命令チューニングデータセットであるCOIG-CQIAを導入する。我々の目標は、モデル行動と人間の相互作用をよりよく整合させる、多種多様な命令チューニングデータセットを構築することである。そこで我々は,Q&Aコミュニティ,Wiki,試験,既存のNLPデータセットなど,中国インターネット上のさまざまな情報源から高品質な人文コーパスを収集した。このコーパスは厳格にフィルタリングされ、慎重に処理され、COIG-CQIAデータセットを形成した。さらに,CQIAの様々なサブセット上で,詳細な評価と分析を行い,様々なスケールのモデルを訓練する。本実験から得られた知見は,中国語の指導訓練データセットの選択と開発に有用な知見を提供する。また、CQIA-Subsetでトレーニングされたモデルは、知識とセキュリティのベンチマークと同様に、人間の評価において競合する結果が得られることがわかった。データはhttps://huggingface.co/datasets/m-a-p/COIG-CQIAで公開されている。

関連論文リスト

Improving Korean-English Cross-Lingual Retrieval: A Data-Centric Study of Language Composition and Model Merging [4.473623071673054]
学習データ構成がCLIR(Cross-Lingual Information Retrieval)とモノリンガル情報検索(Mono-Lingual Information Retrieval)のパフォーマンスに与える影響について検討する。実験の結果,トレーニングデータの言語構成がIR性能に大きく影響を与え,言語間相関が重要であることがわかった。私たちの研究は、モデルマージがこのトレードオフを効果的に軽減し、Mono-Lingual IR機能を保ちながら強力なCLIR結果を達成することを実証しています。
論文参考訳（メタデータ） (2025-07-11T10:44:09Z)
Fixing It in Post: A Comparative Study of LLM Post-Training Data Quality and Model Performance [38.362162910767466]
我々は、Tulu-3-SFT-MixとSmolTalkという2つの著名なオープントレーニング後のデータセットを総合的に分析した。構造的および質的な類似点と2つのデータセットの違いを明らかにする統計を導出する。我々の発見は、より効果的なトレーニング後のデータセットを構築するための実用的な洞察を提供する。
論文参考訳（メタデータ） (2025-06-06T20:34:06Z)
CLIMB: Class-imbalanced Learning Benchmark on Tabular Data [68.07599497425267]
クラス不均衡学習(クラス不均衡学習、class-imbalanced learning、CIL)は、マイノリティクラスが重要な結果を持っている多くの実世界のアプリケーションにおいて重要である。本稿では,クラス不均衡学習のための総合的なベンチマークであるCLIMBを提案する。 CLIMBには、さまざまなドメインと不均衡レベルにわたる73の現実世界データセットと、29の代表的なCILアルゴリズムの統一実装が含まれている。
論文参考訳（メタデータ） (2025-05-23T04:21:03Z)
COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values [43.09443095372083]
高品質で大規模な中国の嗜好データセットであるCOIG-Pを紹介する。これは、Chat、Code、Math、Logic、Nove、Roleの6つの異なるドメインにまたがる1009万の中国の好みペアで構成されている。スコアリングにLLMを使用する場合のオーバーヘッドを軽減するため,COIG-Pを用いて8Bサイズの中国語リワードモデルを訓練した。
論文参考訳（メタデータ） (2025-04-07T22:15:51Z)
CNsum:Automatic Summarization for Chinese News Text [7.181538768266782]
本稿ではトランスフォーマー構造に基づく中国語ニューステキスト要約モデル(CNsum)を提案する。実験の結果, CNsumはベースラインモデルよりもROUGEスコアがよいことがわかった。
論文参考訳（メタデータ） (2025-02-27T03:25:34Z)
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training [5.372706159579268]
OpenCSG Chinese Corpusは、中国語の訓練用に特別に設計された高品質なデータセットである。本発明のコーパスは、Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese、Smoltalk-chineseを含む。 OpenCSG Chinese Corpusの特徴は、高品質なテキスト、ドメイン間の多様なカバレッジ、スケーラブルで再現可能なデータキュレーションプロセスである。
論文参考訳（メタデータ） (2025-01-14T15:22:47Z)
A Chinese Continuous Sign Language Dataset Based on Complex Environments [17.195286118443256]
複雑な環境に基づく中国語連続手話(CSL)のための大規模データセットを構築した。このデータセットは、日常生活シーンから収集された5,988の連続CSLビデオクリップを含んでいる。連続手話認識のための時間周波数ネットワーク(TFNet)モデルを提案する。
論文参考訳（メタデータ） (2024-09-18T13:11:15Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:04:34Z)
CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare [12.218718086529462]
本研究は中国における総合医療ベンチマーク(CMB)に焦点を当てる。私たちは、より大きなモデルに匹敵するスコアを得るために、より小さなベースモデルをトレーニングしました。幅広い指導内容を統合することで,データ品質の不整合などの潜在的な問題に対処する。
論文参考訳（メタデータ） (2024-07-29T05:00:48Z)
Research on Information Extraction of LCSTS Dataset Based on an Improved BERTSum-LSTM Model [3.942479021508835]
本稿では,改良されたBERTSum-LSTMモデルに基づくLCSTSデータセットの情報抽出手法について検討する。 BERTSum-LSTMモデルの改良により,中国語ニュース要約生成の性能が向上する。
論文参考訳（メタデータ） (2024-06-26T14:04:15Z)
Contextualization Distillation from Large Language Model for Knowledge Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文参考訳（メタデータ） (2024-01-28T08:56:49Z)
Kun: Answer Polishment for Chinese Self-Alignment with Instruction Back-Translation [30.053409671898933]
Kunは、手動のアノテーションに頼ることなく、大きな言語モデル(LLM)のための高品質な命令チューニングデータセットを作成するための新しいアプローチである。我々は、Wudao、Wanjuan、SkyPileなど、さまざまな情報源から収集された不正なデータを活用して、100万以上の中国語の命令データポイントの実質的なデータセットを生成します。
論文参考訳（メタデータ） (2024-01-12T09:56:57Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
CLEVA: Chinese Language Models EVAluation Platform [92.42981537317817]
CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。当社のプラットフォームでは,LLMのパフォーマンスをさまざまな次元で評価するために標準化されたワークフローを採用し,定期的に競合するリーダボードを更新しています。汚染を軽減するため、CLEVAは、新しいデータのかなりの割合をキュレーションし、各リーダーボードラウンドのユニークなサブセットを保証するサンプリング戦略を開発する。マウスクリック数回とモデルAPIを必要とする使い勝手の良いインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。
論文参考訳（メタデータ） (2023-08-09T09:11:31Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。