論文の概要: TongGu: Mastering Classical Chinese Understanding with Knowledge-Grounded Large Language Models
- arxiv url: http://arxiv.org/abs/2407.03937v1
- Date: Thu, 4 Jul 2024 13:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 17:53:13.153028
- Title: TongGu: Mastering Classical Chinese Understanding with Knowledge-Grounded Large Language Models
- Title(参考訳): TongGu: 知識を中心とした大規模言語モデルによる中国語の古典的理解を習得する
- Authors: Jiahuan Cao, Dezhi Peng, Peirong Zhang, Yongxin Shi, Yang Liu, Kai Ding, Lianwen Jin,
- Abstract要約: 古典中国語は古代中国の豊かな遺産と知恵の入り口であるが、その複雑さは重大な理解障壁となっている。
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。
本稿は,CCU 固有の LLM である textbfTongGu を提案する。
- 参考スコア(独自算出の注目度): 35.361577129600676
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Classical Chinese is a gateway to the rich heritage and wisdom of ancient China, yet its complexities pose formidable comprehension barriers for most modern people without specialized knowledge. While Large Language Models (LLMs) have shown remarkable capabilities in Natural Language Processing (NLP), they struggle with Classical Chinese Understanding (CCU), especially in data-demanding and knowledge-intensive tasks. In response to this dilemma, we propose \textbf{TongGu} (mean understanding ancient and modern), the first CCU-specific LLM, underpinned by three core contributions. First, we construct a two-stage instruction-tuning dataset ACCN-INS derived from rich classical Chinese corpora, aiming to unlock the full CCU potential of LLMs. Second, we propose Redundancy-Aware Tuning (RAT) to prevent catastrophic forgetting, enabling TongGu to acquire new capabilities while preserving its foundational knowledge. Third, we present a CCU Retrieval-Augmented Generation (CCU-RAG) technique to reduce hallucinations based on knowledge-grounding. Extensive experiments across 24 diverse CCU tasks validate TongGu's superior ability, underscoring the effectiveness of RAT and CCU-RAG. The model and dataset will be public available.
- Abstract(参考訳): 古典中国語は古代中国の豊かな遺産と知恵の入り口であるが、その複雑さは専門知識のない現代のほとんどの人々にとって重大な理解障壁となっている。
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示してきたが、古典中国語理解(CCU)、特にデータ要求や知識集約的なタスクでは苦戦している。
このジレンマに対応するために,3つのコアコントリビューションを基盤とした最初のCCU固有のLLMである「textbf{TongGu}」を提案する。
まず、LLMの完全なCCUポテンシャルを解き放つことを目的とした、2段階の命令チューニングデータセットACCN-INSを構築する。
第2に,破滅的な忘れを防止し,基礎知識を保ちながらTongGuが新たな能力を得ることを可能にするために,冗長性を考慮したチューニング(RAT)を提案する。
第3に,知識接地に基づく幻覚を低減するために,CCU検索拡張生成(CCU-RAG)技術を提案する。
24種類のCCUタスクにわたる大規模な実験は、TongGuの優れた能力を評価し、RATとCCU-RAGの有効性を裏付けている。
モデルとデータセットは公開されます。
関連論文リスト
- C$^{3}$Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models [37.44940836273018]
古典中国語理解(CCU)は、中国の卓越した文化の保存と探索に重要な価値を持っている。
大規模言語モデル(LLM)のCCU機能を評価するための包括的なベンチマークはない。
C$3$benchは、分類、検索、名前付きエンティティ認識、句読点、翻訳を含む5つの主要なCCUタスクに対して50,000のテキストペアで構成されている。
論文 参考訳(メタデータ) (2024-05-28T01:23:58Z) - COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning [57.600941792026006]
高品質な中国語命令チューニングデータセットであるCOIG-CQIAを紹介する。
我々の目標は、モデル行動と人間の相互作用をよりよく整合させる、多種多様な命令チューニングデータセットを構築することである。
我々はCQIAの様々なサブセットで様々なスケールのモデルを訓練し、詳細な評価と分析を行った。
論文 参考訳(メタデータ) (2024-03-26T19:24:18Z) - A Knowledge-Injected Curriculum Pretraining Framework for Question Answering [70.13026036388794]
本稿では,知識に基づく質問応答タスクの総合的なKG学習と活用を実現するための一般知識注入型カリキュラム事前学習フレームワーク(KICP)を提案する。
KIモジュールはまずKG中心の事前学習コーパスを生成してLMに知識を注入し、プロセスを3つの重要なステップに一般化する。
KAモジュールは、アダプタを備えたLMで生成されたコーパスから知識を学習し、元の自然言語理解能力を維持できる。
CRモジュールは人間の推論パターンに従って3つのコーパスを構築する。
論文 参考訳(メタデータ) (2024-03-11T03:42:03Z) - Can Large Language Model Comprehend Ancient Chinese? A Preliminary Test
on ACLUE [23.598825660594926]
ACLUEは、古代中国語を解釈する際の言語モデルの能力を評価するために設計された評価ベンチマークである。
現代中国語と古代中国語の演奏に顕著な相違が見られた。
ChatGLM2は最も顕著なパフォーマンスを示し、平均スコアは37.4%である。
論文 参考訳(メタデータ) (2023-10-14T10:06:39Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca [23.00353889531171]
中国語テキストの理解・生成機能を備えたLLaMAの拡張手法を提案する。
我々は、中国語データを用いた二次事前学習を取り入れ、中国語の命令データセットでモデルを微調整する。
C-Evalデータセットの結果は、我々の数倍の大きさのモデル間で競合性能が得られた。
論文 参考訳(メタデータ) (2023-04-17T11:39:53Z) - A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。
NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。
NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文 参考訳(メタデータ) (2022-11-11T04:29:02Z) - Revisiting and Advancing Chinese Natural Language Understanding with
Accelerated Heterogeneous Knowledge Pre-training [25.510288465345592]
英語とは違って、自然言語処理(NLP)コミュニティでは、さまざまな言語理解アプリケーションをサポートするために、高性能なオープンソースの中国語KEPLMが欠如している。
そこで我々は,さまざまなパラメータサイズで公開された中国語KEPLMを用いて,中国語の自然言語理解の展開と発展について検討する。
具体的には、リレーショナル知識と言語知識の両方を、2つの新しい事前学習タスクに基づいてCKBERTに効果的に注入する。
論文 参考訳(メタデータ) (2022-10-11T09:34:21Z) - Intrinsic Knowledge Evaluation on Chinese Language Models [5.293979881130493]
本稿では, 統語的, 意味的, 常識的, 事実的知識の4つの課題について, 合計39,308ドルの質問に集約する。
我々の調査と知識データは、事前訓練された中国のLMを評価するための信頼性の高いベンチマークであることが証明されている。
論文 参考訳(メタデータ) (2020-11-29T04:34:39Z) - Language Models are Open Knowledge Graphs [75.48081086368606]
近年の深層言語モデルは,事前学習を通じて大規模コーパスから知識を自動取得する。
本稿では,言語モデルに含まれる知識をKGにキャストするための教師なし手法を提案する。
KGは、コーパス上の(微調整なしで)事前訓練された言語モデルの1つの前方パスで構築されていることを示す。
論文 参考訳(メタデータ) (2020-10-22T18:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。