論文の概要: MiChao-HuaFen 1.0: A Specialized Pre-trained Corpus Dataset for
Domain-specific Large Models
- arxiv url: http://arxiv.org/abs/2309.13079v1
- Date: Thu, 21 Sep 2023 09:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 22:23:56.972831
- Title: MiChao-HuaFen 1.0: A Specialized Pre-trained Corpus Dataset for
Domain-specific Large Models
- Title(参考訳): MiChao-HuaFen 1.0:ドメイン固有の大規模モデルのための特別訓練済みコーパスデータセット
- Authors: Yidong Liu, Conghui He, Conghui He, Wei Li, FuKai Shang, Jun Wang, Yao
Li, Rui Xu
- Abstract要約: 本稿では、まず、専門領域における既存の大規模モデルを評価し、その限界について論じる。
MiChao-HuaFen 1.0'の事前トレーニングされたコーパスデータセットを紹介します。
このデータセットは、中国の垂直領域の大規模モデルの事前学習をサポートするだけでなく、関連する分野におけるディープラーニングの研究や応用を促進する助けとなる。
- 参考スコア(独自算出の注目度): 21.850254606497558
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the advancement of deep learning technologies, general-purpose large
models such as GPT-4 have demonstrated exceptional capabilities across various
domains. Nevertheless, there remains a demand for high-quality, domain-specific
outputs in areas like healthcare, law, and finance. This paper first evaluates
the existing large models for specialized domains and discusses their
limitations. To cater to the specific needs of certain domains, we introduce
the ``MiChao-HuaFen 1.0'' pre-trained corpus dataset, tailored for the news and
governmental sectors. The dataset, sourced from publicly available internet
data from 2022, underwent multiple rounds of cleansing and processing to ensure
high quality and reliable origins, with provisions for consistent and stable
updates. This dataset not only supports the pre-training of large models for
Chinese vertical domains but also aids in propelling deep learning research and
applications in related fields.
- Abstract(参考訳): ディープラーニング技術の進歩により、gpt-4のような汎用大規模モデルは様々な領域で例外的な能力を発揮した。
それでも、医療、法律、金融といった分野では、高品質でドメイン固有のアウトプットが要求されている。
本稿では,まず,既存の大規模モデルを専門領域で評価し,その限界について考察する。
特定のドメインの特定のニーズに対応するために,プリトレーニングされたコーパスデータセットである ‘michao-huafen 1.0' を導入する。
2022年に公開されたインターネットデータから引用されたデータセットは、一貫性と安定した更新のための規定とともに、高品質で信頼性の高い起源を保証するために、複数のクリーンシングと処理を行った。
このデータセットは、中国の垂直領域の大規模モデルの事前学習をサポートするだけでなく、関連する分野におけるディープラーニングの研究や応用を促進する助けとなる。
関連論文リスト
- RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - A New Pipeline For Generating Instruction Dataset via RAG and Self Fine-Tuning [0.0]
本研究では,特定のドメインを微調整するための高品質な命令データセットを構築するパイプラインを提案する。
ドメイン固有の文書を取り込み、パイプラインは関連性のある適切な命令を生成する。
ケーススタディでは、専門知識と患者情報の繊細な取り扱いを必要とする領域である精神医学の領域にこのアプローチを適用した。
論文 参考訳(メタデータ) (2024-08-12T03:52:11Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Large Models for Time Series and Spatio-Temporal Data: A Survey and
Outlook [95.32949323258251]
時系列データ、特に時系列データと時間時間データは、現実世界のアプリケーションで広く使われている。
大規模言語やその他の基礎モデルの最近の進歩は、時系列データマイニングや時間データマイニングでの使用の増加に拍車を掛けている。
論文 参考訳(メタデータ) (2023-10-16T09:06:00Z) - On the Impact of Cross-Domain Data on German Language Models [20.758967185444416]
高品質なデータを含むことを目的とした別のデータセットとともに、5つのドメインのテキストからなるドイツのデータセットを提案する。
両方のデータセット上で122Mから750Mパラメータの一連のモデルをトレーニングすることにより、複数の下流タスクに関する包括的なベンチマークを行う。
この結果から、クロスドメインデータセットでトレーニングされたモデルは、品質データだけでトレーニングされたモデルよりも優れており、前回の最先端データよりも最大4.45%の改善が達成された。
論文 参考訳(メタデータ) (2023-10-11T09:09:55Z) - Federated Domain Generalization: A Survey [12.84261944926547]
機械学習では、データはさまざまなデバイス、組織、エッジノードに分散されることが多い。
この課題に応えて、連邦領域の一般化への関心が高まっている。
本稿では,この領域における最近の進歩に関する最初の調査について述べる。
論文 参考訳(メタデータ) (2023-06-02T07:55:42Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - A Data-centric Framework for Improving Domain-specific Machine Reading
Comprehension Datasets [5.673449249014538]
低品質のデータは、高スループットアプリケーションで下流の問題を引き起こす可能性がある。
データ中心のアプローチでは、データセットの品質向上とモデルパフォーマンスの向上が重視される。
論文 参考訳(メタデータ) (2023-04-02T08:26:38Z) - Domain Generalization: A Survey [146.68420112164577]
ドメイン一般化(DG)は、モデル学習にソースドメインデータを使用するだけでOOD一般化を実現することを目的としています。
初めて、DGの10年の開発をまとめるために包括的な文献レビューが提供されます。
論文 参考訳(メタデータ) (2021-03-03T16:12:22Z) - Cross-domain Time Series Forecasting with Attention Sharing [10.180248006928107]
本稿では,データ不足問題に対処する新しいドメイン適応フレームワークであるDomain Adaptation Forecaster(DAF)を提案する。
特に、ドメイン間のドメイン識別器と、個々のドメインに対するプリベートモジュールを備えたアテンションベースの共有モジュールを提案する。
これにより、ドメイン固有の機能をトレーニングしながら、ドメイン不変の潜在機能を生成させることで、ソースとターゲットドメインを共同でトレーニングすることができる。
論文 参考訳(メタデータ) (2021-02-13T00:26:35Z) - Domain Adaption for Knowledge Tracing [65.86619804954283]
本稿では,DAKT問題に対処するための新しい適応型フレームワーク,すなわち知識追跡(AKT)を提案する。
まず,Deep Knowledge Trace(DKT)に基づく教育的特徴(スリップ,推測,質問文など)を取り入れ,優れた知識追跡モデルを得る。
第2の側面として、3つのドメイン適応プロセスを提案し、採用する。まず、ターゲットモデルトレーニングに有用なソースインスタンスを選択するために、自動エンコーダを事前訓練する。
論文 参考訳(メタデータ) (2020-01-14T15:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。