Fugu-MT 論文翻訳(概要): TongGu: Mastering Classical Chinese Understanding with Knowledge-Grounded Large Language Models

論文の概要: TongGu: Mastering Classical Chinese Understanding with Knowledge-Grounded Large Language Models

arxiv url: http://arxiv.org/abs/2407.03937v1
Date: Thu, 4 Jul 2024 13:52:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 17:53:13.153028
Title: TongGu: Mastering Classical Chinese Understanding with Knowledge-Grounded Large Language Models
Title（参考訳）: TongGu: 知識を中心とした大規模言語モデルによる中国語の古典的理解を習得する
Authors: Jiahuan Cao, Dezhi Peng, Peirong Zhang, Yongxin Shi, Yang Liu, Kai Ding, Lianwen Jin,
Abstract要約: 古典中国語は古代中国の豊かな遺産と知恵の入り口であるが、その複雑さは重大な理解障壁となっている。大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。本稿は,CCU 固有の LLM である textbfTongGu を提案する。
参考スコア（独自算出の注目度）: 35.361577129600676
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Classical Chinese is a gateway to the rich heritage and wisdom of ancient China, yet its complexities pose formidable comprehension barriers for most modern people without specialized knowledge. While Large Language Models (LLMs) have shown remarkable capabilities in Natural Language Processing (NLP), they struggle with Classical Chinese Understanding (CCU), especially in data-demanding and knowledge-intensive tasks. In response to this dilemma, we propose \textbf{TongGu} (mean understanding ancient and modern), the first CCU-specific LLM, underpinned by three core contributions. First, we construct a two-stage instruction-tuning dataset ACCN-INS derived from rich classical Chinese corpora, aiming to unlock the full CCU potential of LLMs. Second, we propose Redundancy-Aware Tuning (RAT) to prevent catastrophic forgetting, enabling TongGu to acquire new capabilities while preserving its foundational knowledge. Third, we present a CCU Retrieval-Augmented Generation (CCU-RAG) technique to reduce hallucinations based on knowledge-grounding. Extensive experiments across 24 diverse CCU tasks validate TongGu's superior ability, underscoring the effectiveness of RAT and CCU-RAG. The model and dataset will be public available.
Abstract（参考訳）: 古典中国語は古代中国の豊かな遺産と知恵の入り口であるが、その複雑さは専門知識のない現代のほとんどの人々にとって重大な理解障壁となっている。大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示してきたが、古典中国語理解(CCU)、特にデータ要求や知識集約的なタスクでは苦戦している。このジレンマに対応するために,3つのコアコントリビューションを基盤とした最初のCCU固有のLLMである「textbf{TongGu}」を提案する。まず、LLMの完全なCCUポテンシャルを解き放つことを目的とした、2段階の命令チューニングデータセットACCN-INSを構築する。第2に,破滅的な忘れを防止し,基礎知識を保ちながらTongGuが新たな能力を得ることを可能にするために,冗長性を考慮したチューニング(RAT)を提案する。第3に,知識接地に基づく幻覚を低減するために,CCU検索拡張生成(CCU-RAG)技術を提案する。 24種類のCCUタスクにわたる大規模な実験は、TongGuの優れた能力を評価し、RATとCCU-RAGの有効性を裏付けている。モデルとデータセットは公開されます。

関連論文リスト

Benchmarking Chinese Knowledge Rectification in Large Language Models [43.9841600678381]
本稿では,大言語モデルにおける中国語の知識を知識編集により修正するためのベンチマークを提案する。我々は、古典的なテキスト、イディオム、Baidu Tieba Ruozhibaのコンテンツを含む、様々な情報源から7種類の知識を収集します。このデータセットの分析を通して、中国語を習得する上で現在LLMが直面している課題を明らかにする。
論文参考訳（メタデータ） (2024-09-09T17:11:51Z)
C$^{3}$Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models [37.44940836273018]
古典中国語理解(CCU)は、中国の卓越した文化の保存と探索に重要な価値を持っている。大規模言語モデル(LLM)のCCU機能を評価するための包括的なベンチマークはない。 C$3$benchは、分類、検索、名前付きエンティティ認識、句読点、翻訳を含む5つの主要なCCUタスクに対して50,000のテキストペアで構成されている。
論文参考訳（メタデータ） (2024-05-28T01:23:58Z)
A Knowledge-Injected Curriculum Pretraining Framework for Question Answering [70.13026036388794]
本稿では,知識に基づく質問応答タスクの総合的なKG学習と活用を実現するための一般知識注入型カリキュラム事前学習フレームワーク(KICP)を提案する。 KIモジュールはまずKG中心の事前学習コーパスを生成してLMに知識を注入し、プロセスを3つの重要なステップに一般化する。 KAモジュールは、アダプタを備えたLMで生成されたコーパスから知識を学習し、元の自然言語理解能力を維持できる。 CRモジュールは人間の推論パターンに従って3つのコーパスを構築する。
論文参考訳（メタデータ） (2024-03-11T03:42:03Z)
Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文参考訳（メタデータ） (2023-05-30T05:48:36Z)
Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca [23.00353889531171]
中国語テキストの理解・生成機能を備えたLLaMAの拡張手法を提案する。我々は、中国語データを用いた二次事前学習を取り入れ、中国語の命令データセットでモデルを微調整する。 C-Evalデータセットの結果は、我々の数倍の大きさのモデル間で競合性能が得られた。
論文参考訳（メタデータ） (2023-04-17T11:39:53Z)
Chinese Open Instruction Generalist: A Preliminary Release [33.81265396916227]
本研究では,4つのサブタスクの固有特性に適応した各種手法による中国語指導データセットの作成を目的としたプロジェクトを提案する。我々は、品質を保証するために手作業でチェックされた約200万の中国語のインストラクションチューニングサンプルを収集した。既存の英語と中国語の命令コーパスを要約し、新たに構築された中国語の命令コーパスの潜在的な応用を簡潔に述べる。
論文参考訳（メタデータ） (2023-04-17T04:45:06Z)
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners [55.119101947682715]
CaFoは、様々な事前学習パラダイムの様々な事前知識を取り入れた、ファウンデーションのカスケードモデルである。私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。
論文参考訳（メタデータ） (2023-03-03T18:58:16Z)
A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。 NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。 NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文参考訳（メタデータ） (2022-11-11T04:29:02Z)
Revisiting and Advancing Chinese Natural Language Understanding with Accelerated Heterogeneous Knowledge Pre-training [25.510288465345592]
英語とは違って、自然言語処理(NLP)コミュニティでは、さまざまな言語理解アプリケーションをサポートするために、高性能なオープンソースの中国語KEPLMが欠如している。そこで我々は,さまざまなパラメータサイズで公開された中国語KEPLMを用いて,中国語の自然言語理解の展開と発展について検討する。具体的には、リレーショナル知識と言語知識の両方を、2つの新しい事前学習タスクに基づいてCKBERTに効果的に注入する。
論文参考訳（メタデータ） (2022-10-11T09:34:21Z)
Intrinsic Knowledge Evaluation on Chinese Language Models [5.293979881130493]
本稿では, 統語的, 意味的, 常識的, 事実的知識の4つの課題について, 合計39,308ドルの質問に集約する。我々の調査と知識データは、事前訓練された中国のLMを評価するための信頼性の高いベンチマークであることが証明されている。
論文参考訳（メタデータ） (2020-11-29T04:34:39Z)
Language Models are Open Knowledge Graphs [75.48081086368606]
近年の深層言語モデルは,事前学習を通じて大規模コーパスから知識を自動取得する。本稿では,言語モデルに含まれる知識をKGにキャストするための教師なし手法を提案する。 KGは、コーパス上の(微調整なしで)事前訓練された言語モデルの1つの前方パスで構築されていることを示す。
論文参考訳（メタデータ） (2020-10-22T18:01:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。