論文の概要: XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of
Billions Parameters
- arxiv url: http://arxiv.org/abs/2305.12002v1
- Date: Fri, 19 May 2023 21:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 01:24:37.086467
- Title: XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of
Billions Parameters
- Title(参考訳): XuanYuan 2.0: 数十億のパラメータを持つ中国の巨大金融チャットモデル
- Authors: Xuanyu Zhang and Qing Yang and Dongliang Xu
- Abstract要約: XuanYuan 2.0は、BLOOM-176Bアーキテクチャ上に構築された中国最大のチャットモデルである。
本稿では,破滅的な忘れ方に対するハイブリッドチューニングという新たなトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 14.759663752868487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, pre-trained language models have undergone rapid development
with the emergence of large-scale models. However, there is a lack of
open-sourced chat models specifically designed for the Chinese language,
especially in the field of Chinese finance, at the scale of hundreds of
billions. To address this gap, we introduce XuanYuan 2.0, the largest Chinese
chat model to date, built upon the BLOOM-176B architecture. Additionally, we
propose a novel training method called hybrid-tuning to mitigate catastrophic
forgetting. By combining general-domain with domain-specific knowledge and
integrating the stages of pre-training and fine-tuning, XuanYuan 2.0 is capable
of providing accurate and contextually appropriate responses in the Chinese
financial domain.
- Abstract(参考訳): 近年,大規模モデルの出現に伴い,事前学習型言語モデルの開発が急速に進んでいる。
しかし、特に中国の金融の分野では、何十億という規模で、中国語用に特別に設計されたオープンソースのチャットモデルが不足している。
このギャップに対処するために,BLOOM-176Bアーキテクチャ上に構築された中国最大のチャットモデルであるXuanYuan 2.0を紹介する。
さらに,破滅的忘れを緩和するハイブリッドチューニングという新たなトレーニング手法を提案する。
一般ドメインとドメイン固有の知識を組み合わせることで、事前トレーニングと微調整の段階を統合することで、中国の金融ドメインにおいて正確かつ文脈的に適切な応答を提供することができる。
関連論文リスト
- M2QA: Multi-domain Multilingual Question Answering [63.191474328757366]
入力変動に対する一般化と堅牢性は、機械学習研究の核となるデシダータである。
マルチドメイン多言語質問応答ベンチマークであるM2QAを紹介する。
M2QAには、ドイツ語、トルコ語、中国語で13500のSQuAD 2.0スタイルの質問応答インスタンスが含まれている。
論文 参考訳(メタデータ) (2024-07-01T08:48:49Z) - ChuXin: 1.6B Technical Report [7.03872473285061]
ChuXinは16億のパラメータを持つ完全にオープンソースな言語モデルである。
トレーニングデータ、トレーニングプロセス、評価コードなど、モデルをトレーニングするために必要なものはすべて用意しました。
論文 参考訳(メタデータ) (2024-05-08T05:54:44Z) - Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model [36.01840141194335]
2B大言語モデル(LLM)であるCT-LLMを導入する。
CT-LLMは、スクラッチから一意に開始され、中国語のテキストデータを組み込んで従来の手法から分岐する。
CT-LLMは中国語のタスクに優れており、SFTを通して英語で適応性を示す。
論文 参考訳(メタデータ) (2024-04-05T15:20:02Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Continuous Training and Fine-tuning for Domain-Specific Language Models
in Medical Question Answering [4.254954312483959]
大規模言語モデルは有望な汎用能力を示すが、しばしばドメイン固有のタスクに関する専門知識を欠いている。
本研究は,Llama 2ベースモデルを中国医学領域に迅速に適応させるための,連続的なトレーニングと指導の微調整を用いた手法を実証する。
論文 参考訳(メタデータ) (2023-11-01T00:18:00Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with
Images as Pivots [80.32906566894171]
英語の安定拡散を中国語に伝達する簡易かつ効果的な方法であるIAPを提案する。
IAPは、CLIPの埋め込み空間における中国語、英語、視覚的意味論の接続を効率的に確立する。
実験結果から,本手法は,5%のトレーニングデータしか持たない強い中国拡散モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-19T09:20:27Z) - Revisiting and Advancing Chinese Natural Language Understanding with
Accelerated Heterogeneous Knowledge Pre-training [25.510288465345592]
英語とは違って、自然言語処理(NLP)コミュニティでは、さまざまな言語理解アプリケーションをサポートするために、高性能なオープンソースの中国語KEPLMが欠如している。
そこで我々は,さまざまなパラメータサイズで公開された中国語KEPLMを用いて,中国語の自然言語理解の展開と発展について検討する。
具体的には、リレーショナル知識と言語知識の両方を、2つの新しい事前学習タスクに基づいてCKBERTに効果的に注入する。
論文 参考訳(メタデータ) (2022-10-11T09:34:21Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。