論文の概要: GujiBERT and GujiGPT: Construction of Intelligent Information Processing
Foundation Language Models for Ancient Texts
- arxiv url: http://arxiv.org/abs/2307.05354v1
- Date: Tue, 11 Jul 2023 15:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 14:28:20.391450
- Title: GujiBERT and GujiGPT: Construction of Intelligent Information Processing
Foundation Language Models for Ancient Texts
- Title(参考訳): GujiBERTとGujiGPT:古代テキストのための知的情報処理基礎言語モデルの構築
- Authors: Dongbo Wang, Chang Liu, Zhixiao Zhao, Si Shen, Liu Liu, Bin Li,
Haotian Hu, Mengcheng Wu, Litao Lin, Xue Zhao, Xiyu Wang
- Abstract要約: GujiBERTとGujiGPT言語モデルは、古代のテキストの知的情報処理に特化した基礎モデルである。
これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範なデータセットで訓練されている。
これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示しています。
- 参考スコア(独自算出の注目度): 11.289265479095956
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the context of the rapid development of large language models, we have
meticulously trained and introduced the GujiBERT and GujiGPT language models,
which are foundational models specifically designed for intelligent information
processing of ancient texts. These models have been trained on an extensive
dataset that encompasses both simplified and traditional Chinese characters,
allowing them to effectively handle various natural language processing tasks
related to ancient books, including but not limited to automatic sentence
segmentation, punctuation, word segmentation, part-of-speech tagging, entity
recognition, and automatic translation. Notably, these models have exhibited
exceptional performance across a range of validation tasks using publicly
available datasets. Our research findings highlight the efficacy of employing
self-supervised methods to further train the models using classical text
corpora, thus enhancing their capability to tackle downstream tasks. Moreover,
it is worth emphasizing that the choice of font, the scale of the corpus, and
the initial model selection all exert significant influence over the ultimate
experimental outcomes. To cater to the diverse text processing preferences of
researchers in digital humanities and linguistics, we have developed three
distinct categories comprising a total of nine model variations. We believe
that by sharing these foundational language models specialized in the domain of
ancient texts, we can facilitate the intelligent processing and scholarly
exploration of ancient literary works and, consequently, contribute to the
global dissemination of China's rich and esteemed traditional culture in this
new era.
- Abstract(参考訳): 大規模言語モデルの急速な発展の背景には,古文書の知的情報処理に特化して設計された基礎モデルであるGujiBERTとGujiGPT言語モデルを導入し,慎重に訓練してきた。
これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範囲なデータセットに基づいて訓練されており、自動文分割、句読解、単語分割、部分音声タグ付け、エンティティ認識、自動翻訳など、古代の書籍に関連する様々な自然言語処理タスクを効果的に扱うことができる。
特に、これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示している。
本研究は,従来のテキストコーパスを用いてモデルをさらに訓練する自己指導手法の有効性を強調し,下流タスクに対処する能力を高めることを目的とした。
さらに、フォントの選択、コーパスのスケール、初期モデルの選択が、究極的な実験結果に大きな影響を与えることを強調する価値がある。
デジタル人文科学と言語学の研究者による多種多様なテキスト処理の嗜好を満たすために,9つのモデルバリエーションからなる3つの異なるカテゴリを開発した。
古代テキストの領域に特化しているこれらの基礎言語モデルを共有することで、古代文学作品のインテリジェントな処理と学術的な探索を促進し、この新時代における中国の豊かで尊厳ある伝統文化の世界的な普及に寄与できると信じている。
関連論文リスト
- Personalized Text Generation with Fine-Grained Linguistic Control [9.668216418094316]
複数の言語的次元にまたがる微粒な属性の制御に焦点をあてる。
生成モデルを訓練するための新しいベンチマークを導入し、パーソナライズされたテキストを生成する能力を評価する。
論文 参考訳(メタデータ) (2024-02-07T14:41:08Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Exploring Large Language Models for Classical Philology [17.856304057963776]
我々は古代ギリシア語のための4つの言語モデルを作成し、2つの次元に沿って異なる。
補題化を含む形態的および構文的タスクに関する全てのモデルを評価する。
その結果、私たちのモデルはSoTAよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T05:21:02Z) - Foundation Models for Natural Language Processing -- Pre-trained
Language Models Integrating Media [0.0]
ファンデーションモデルは自然言語処理のための事前訓練された言語モデルである。
画像処理やビデオ処理からロボット制御学習まで、幅広いメディアや問題領域に適用することができる。
本書は、ファンデーションモデルの研究および応用における技術の現状を概観する。
論文 参考訳(メタデータ) (2023-02-16T20:42:04Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Russian Natural Language Generation: Creation of a Language Modelling
Dataset and Evaluation with Modern Neural Architectures [0.0]
ロシア語モデリングのための新しい参照データセットを提供する。
我々は、テキスト生成、すなわち変分オートエンコーダ、および生成的敵ネットワークのための一般的なモダンな手法を実験した。
我々は, 難易度, 文法的正しさ, 語彙的多様性などの指標について, 生成したテキストを評価する。
論文 参考訳(メタデータ) (2020-05-05T20:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。