論文の概要: A Fine-Tuned BERT Classifier for Personal-Letter Titles in Late-Ming and Early-Qing Collected Works
- arxiv url: http://arxiv.org/abs/2605.23103v1
- Date: Thu, 21 May 2026 23:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.135818
- Title: A Fine-Tuned BERT Classifier for Personal-Letter Titles in Late-Ming and Early-Qing Collected Works
- Title(参考訳): 後期・前期集成作品におけるパーソナライズレター用細調整BERT分類器
- Authors: Queenie Luo,
- Abstract要約: Lepton fine-tunes bert-base-chinese on 5438 hand-labeled wenji title from 33-day-Ming and early-Qing literati
私はこのモデルをHugging Faceにデプロイし、中国伝記データベース(CBDB)で明中期から清初期にかけて約55万通の文字を識別するのに使用してきました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: I present Lepton (Letter Prediction), a fine-tuned BERT classifier that predicts whether a title in a Classical Chinese wenji table of contents is a personal letter or a closely confusable preface (particularly the farewell-preface). Lepton fine-tunes bert-base-chinese on 5438 hand-labeled wenji titles from thirty-three late-Ming and early-Qing literati. I've deployed the model on Hugging Face and has been used at the China Biographical Database (CBDB) to identify approximately fifty-five thousand letters across mid-Ming through early-Qing wenji, populating the Ming Letter Platform.
- Abstract(参考訳): 本稿では,古典中国語の和字表のタイトルが個人用文字か,あるいは難解な序文(特に「お別れの序文」)であるかを予測する,微調整のBERT分類器であるLepton(Letter Prediction)を紹介する。
Lepton fine-tunes bert-base-chinese on 5438 hand-labeled wenji title from 33-day-Ming and early-Qing literati
私は、このモデルをHugging Faceにデプロイし、中国伝記データベース(CBDB)で、明中頃から清初期にかけて、約55万通の文字を識別し、明文字プラットフォームを普及させました。
関連論文リスト
- CNMBERT: A Model for Converting Hanyu Pinyin Abbreviations to Chinese Characters [1.6190746208019737]
漢友ピニイン略語を漢字に変換する作業は、中国語スペルリング・コレクション(CSC)の領域において重要な部分である。
名前付きエンティティ認識や感情分析など、多くのダウンストリームアプリケーションにおいて重要な役割を果たす。
本稿では、この問題に対する解決策として、zh-CN Pinyin Multi-mask BERT Modelの略であるCNMBERTを提案する。
論文 参考訳(メタデータ) (2024-11-18T17:50:34Z) - Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts [65.10991154918737]
本研究は、古代中国の春・秋・戦国時代(紀元前771-256年)に用いられた中竹の文字に焦点を当てたものである。
我々のトークンライザはまず文字検出を採用して文字境界の特定を行い、次に文字レベルとサブキャラクタレベルの両方で文字認識を行う。
学術コミュニティを支援するために,100K以上の注釈付き文字イメージスキャンを備えたCBSの最初の大規模データセットも収集した。
論文 参考訳(メタデータ) (2024-09-02T07:42:55Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - "Is Whole Word Masking Always Better for Chinese BERT?": Probing on
Chinese Grammatical Error Correction [58.40808660657153]
我々は,中国語のBERTにおいて,単語マスキング(WWM)が文脈理解能力の向上につながるかどうかを検討する。
我々は10,448文で19,075トークンのラベルを含むデータセットを構築した。
標準文字レベルマスキング(CLM)、WWM、CLMとWWMを組み合わせた3つの中国のBERTモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-01T08:24:56Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Generating Major Types of Chinese Classical Poetry in a Uniformed
Framework [88.57587722069239]
GPT-2に基づく漢詩の主要なタイプを生成するフレームワークを提案する。
予備的な結果は、この強化されたモデルが、形も内容も質の高い大型漢詩を生成できることを示している。
論文 参考訳(メタデータ) (2020-03-13T14:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。