論文の概要: JIANG: Chinese Open Foundation Language Model
- arxiv url: http://arxiv.org/abs/2308.00624v1
- Date: Tue, 1 Aug 2023 15:51:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 13:32:15.533966
- Title: JIANG: Chinese Open Foundation Language Model
- Title(参考訳): JIANG:中国のオープンファンデーション言語モデル
- Authors: Qinhua Duan, Wenchao Gu, Yujia Chen, Wenxin Mao, Zewen Tian, Hui Cao
- Abstract要約: 中国語に特化して設計された「ジャングル」というモデルを紹介した。
我々は、モデルをトレーニングするために相当量の中国製コーパスを集め、その構造を最適化した。
- 参考スコア(独自算出の注目度): 2.9346478520020725
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the advancements in large language model technology, it has showcased
capabilities that come close to those of human beings across various tasks.
This achievement has garnered significant interest from companies and
scientific research institutions, leading to substantial investments in the
research and development of these models. While numerous large models have
emerged during this period, the majority of them have been trained primarily on
English data. Although they exhibit decent performance in other languages, such
as Chinese, their potential remains limited due to factors like vocabulary
design and training corpus. Consequently, their ability to fully express their
capabilities in Chinese falls short. To address this issue, we introduce the
model named JIANG (Chinese pinyin of ginger) specifically designed for the
Chinese language. We have gathered a substantial amount of Chinese corpus to
train the model and have also optimized its structure. The extensive
experimental results demonstrate the excellent performance of our model.
- Abstract(参考訳): 大規模言語モデル技術の進歩に伴い、様々なタスクにまたがる人間のものに近づいた機能を披露している。
この業績は企業や科学研究機関から大きな関心を集め、これらのモデルの研究と開発に多大な投資をもたらした。
この時期には多数の大型モデルが登場しているが、その大半は主に英語のデータに基づいて訓練されている。
中国語など他の言語では優れたパフォーマンスを示すが、語彙設計や訓練コーパスなどの要因により、その潜在能力は制限されている。
そのため、中国語で能力を完全に表現する能力は不足している。
この問題に対処するために,中国語用に特別に設計されたjiang ( chinese pinyin of ginger) というモデルを紹介する。
我々は、モデルをトレーニングするために相当量の中国製コーパスを集め、その構造を最適化した。
広範な実験結果から,本モデルの優れた性能を示す。
関連論文リスト
- SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Dynamic data sampler for cross-language transfer learning in large language models [34.464472766868106]
ChatFlowは、言語間移動に基づく大規模言語モデル(LLM)である。
我々は、LLaMA2モデルを継続的に訓練するために、中国語、英語、並列コーパスを組み合わせています。
実験により,本手法はモデル収束を加速し,優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-17T08:40:51Z) - Computational Modelling of Plurality and Definiteness in Chinese Noun
Phrases [13.317456093426808]
中国語名詞句(NPs)における複数・定性マーカーの欠落に着目した。
我々は中国語のNPのコーパスを構築し、そのそれぞれに対応する文脈と、その特異性/複数性と定性/不定性を示すラベルを添える。
従来の機械学習モデルと最先端の事前学習言語モデルの両方を用いて計算モデルのバンクを訓練し、各NPの多重性と定性を予測する。
論文 参考訳(メタデータ) (2024-03-07T10:06:54Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - GujiBERT and GujiGPT: Construction of Intelligent Information Processing
Foundation Language Models for Ancient Texts [11.289265479095956]
GujiBERTとGujiGPT言語モデルは、古代のテキストの知的情報処理に特化した基礎モデルである。
これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範なデータセットで訓練されている。
これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2023-07-11T15:44:01Z) - A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean
Language Models [6.907247943327277]
Polyglotは多言語モデルの非英語のパフォーマンス向上を目的とした先駆的なプロジェクトである。
多言語韓国語モデルは、自然界において多言語的ではなく、特定の焦点を表わすものである。
論文 参考訳(メタデータ) (2023-06-04T04:04:04Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - StyleBERT: Chinese pretraining by font style information [14.585511561131078]
実験により,中国における広範囲のNLPタスクにおいて,モデルが良好な性能を発揮することが示された。
英語とは異なり、中国語にはグリフ情報などの特殊文字がある。
論文 参考訳(メタデータ) (2022-02-21T02:45:12Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。