論文の概要: WenyanGPT: A Large Language Model for Classical Chinese Tasks
- arxiv url: http://arxiv.org/abs/2504.20609v1
- Date: Tue, 29 Apr 2025 10:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.843441
- Title: WenyanGPT: A Large Language Model for Classical Chinese Tasks
- Title(参考訳): WenyanGPT: 古典中国語タスクのための大規模言語モデル
- Authors: Xinyu Yao, Mengdi Wang, Bo Chen, Xiaobing Zhao,
- Abstract要約: 既存の自然言語処理モデルは、主に現代中国語に最適化されており、古典中国語では不十分なパフォーマンスをもたらす。
LLaMA3-8B中国語モデルの事前学習と微調整を継続することにより、古典中国語タスクに特化して設計された大型言語モデルWenyanGPTを構築する。
- 参考スコア(独自算出の注目度): 36.380841559581945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical Chinese, as the core carrier of Chinese culture, plays a crucial role in the inheritance and study of ancient literature. However, existing natural language processing models primarily optimize for Modern Chinese, resulting in inadequate performance on Classical Chinese. This paper presents a comprehensive solution for Classical Chinese language processing. By continuing pre-training and instruction fine-tuning on the LLaMA3-8B-Chinese model, we construct a large language model, WenyanGPT, which is specifically designed for Classical Chinese tasks. Additionally, we develop an evaluation benchmark dataset, WenyanBENCH. Experimental results on WenyanBENCH demonstrate that WenyanGPT significantly outperforms current advanced LLMs in various Classical Chinese tasks. We make the model's training data, instruction fine-tuning data\footnote, and evaluation benchmark dataset publicly available to promote further research and development in the field of Classical Chinese processing.
- Abstract(参考訳): 中国文化の中核である古典中国語は、古代文学の継承と研究において重要な役割を担っている。
しかし、既存の自然言語処理モデルは主に現代中国語に最適化されており、古典中国語では不十分なパフォーマンスをもたらす。
本稿では,古典中国語処理における包括的解法を提案する。
LLaMA3-8B中国語モデルの事前学習と微調整を継続することにより、古典中国語タスクに特化して設計された大型言語モデルWenyanGPTを構築する。
さらに,評価ベンチマークデータセットであるWenyanBENCHを開発した。
WenyanBENCHの実験結果は、WenyanGPTが様々な古典中国語タスクにおいて、現在の高度なLLMを著しく上回っていることを示している。
我々は、古典中国語処理分野におけるさらなる研究と開発を促進するために、モデルのトレーニングデータ、微調整データ\footnote、および評価ベンチマークデータセットを公開している。
関連論文リスト
- FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model [36.01840141194335]
2B大言語モデル(LLM)であるCT-LLMを導入する。
CT-LLMは、スクラッチから一意に開始され、中国語のテキストデータを組み込んで従来の手法から分岐する。
CT-LLMは中国語のタスクに優れており、SFTを通して英語で適応性を示す。
論文 参考訳(メタデータ) (2024-04-05T15:20:02Z) - Code-Based English Models Surprising Performance on Chinese QA Pair
Extraction Task [17.117337927315315]
コードベースのモデルは推論集約シナリオにおいて、テキストベースのモデルよりも一貫してパフォーマンスが良い。
一定の量の中国語データを含むコードベースのモデルは、パフォーマンスをさらに向上させる。
特定の中国語タスクにおけるコードベース英語モデルの能力は、哲学的な「中国語室」思考実験において、明確な視点を提供する。
論文 参考訳(メタデータ) (2024-01-16T02:11:35Z) - GujiBERT and GujiGPT: Construction of Intelligent Information Processing
Foundation Language Models for Ancient Texts [11.289265479095956]
GujiBERTとGujiGPT言語モデルは、古代のテキストの知的情報処理に特化した基礎モデルである。
これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範なデータセットで訓練されている。
これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2023-07-11T15:44:01Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - WYWEB: A NLP Evaluation Benchmark For Classical Chinese [10.138128038929237]
古典中国語における9つのNLPタスクからなるWYWEB評価ベンチマークを紹介する。
我々は、このベンチマークで苦労している既存の事前学習言語モデルを評価する。
論文 参考訳(メタデータ) (2023-05-23T15:15:11Z) - Extending the Pre-Training of BLOOM for Improved Support of Traditional
Chinese: Models, Methods and Results [12.00277814051069]
BLOOM-zhは、2022年にBigScienceによって発表されたオープンソースのBLOOMモデルに由来する。
BLOOMの事前トレーニングを、さまざまなドメインをカバーする中国語と英語で740億のトークンを追加することで拡張した。
BLOOM-zhは、従来の中国のベンチマークにおいて、英語の能力を維持しながら、前者よりも優れています。
論文 参考訳(メタデータ) (2023-03-08T16:53:19Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - StyleBERT: Chinese pretraining by font style information [14.585511561131078]
実験により,中国における広範囲のNLPタスクにおいて,モデルが良好な性能を発揮することが示された。
英語とは異なり、中国語にはグリフ情報などの特殊文字がある。
論文 参考訳(メタデータ) (2022-02-21T02:45:12Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z) - Revisiting Pre-Trained Models for Chinese Natural Language Processing [73.65780892128389]
我々は、中国語の事前学習言語モデルを再検討し、英語以外の言語での有効性について検討する。
また,RoBERTaを改良したMacBERTモデルを提案する。
論文 参考訳(メタデータ) (2020-04-29T02:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。