論文の概要: A Comparative Analysis of Word Segmentation, Part-of-Speech Tagging, and Named Entity Recognition for Historical Chinese Sources, 1900-1950
- arxiv url: http://arxiv.org/abs/2503.19844v1
- Date: Tue, 25 Mar 2025 17:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:14.831108
- Title: A Comparative Analysis of Word Segmentation, Part-of-Speech Tagging, and Named Entity Recognition for Historical Chinese Sources, 1900-1950
- Title(参考訳): 歴史的中国資料における単語分割, パート・オブ・Speech Tagging, Named Entity Recognitionの比較分析, 1900-1950
- Authors: Zhao Fang, Liang-Chun Wu, Xuening Kong, Spencer Dean Stewart,
- Abstract要約: 本稿では,大言語モデル(LLM)と従来の自然言語処理(NLP)ツールを比較し,単語セグメンテーション,POSタグ付け,名前付きエンティティ認識(NER)について述べる。
歴史的中国の文書は、その書体、自然語境界の欠如、言語学的変化により、テキスト分析の課題を提起している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper compares large language models (LLMs) and traditional natural language processing (NLP) tools for performing word segmentation, part-of-speech (POS) tagging, and named entity recognition (NER) on Chinese texts from 1900 to 1950. Historical Chinese documents pose challenges for text analysis due to their logographic script, the absence of natural word boundaries, and significant linguistic changes. Using a sample dataset from the Shanghai Library Republican Journal corpus, traditional tools such as Jieba and spaCy are compared to LLMs, including GPT-4o, Claude 3.5, and the GLM series. The results show that LLMs outperform traditional methods in all metrics, albeit at considerably higher computational costs, highlighting a trade-off between accuracy and efficiency. Additionally, LLMs better handle genre-specific challenges such as poetry and temporal variations (i.e., pre-1920 versus post-1920 texts), demonstrating that their contextual learning capabilities can advance NLP approaches to historical texts by reducing the need for domain-specific training data.
- Abstract(参考訳): 本稿では,1900年から1950年までの中国語テキスト上で,単語セグメンテーションを行うための大規模言語モデル(LLM)と従来の自然言語処理(NLP)ツール,POSタグ,エンティティ認識(NER)を比較検討した。
歴史的中国の文書は、その書体、自然語境界の欠如、言語学的変化により、テキスト分析の課題を提起している。
上海図書館レガシ・ジャーナル・コーパスのサンプル・データセットを用いて、ジエバやスパチーといった伝統的なツールを、GPT-4o、Claude 3.5、GLMシリーズなどのLCMと比較する。
その結果、LLMは計算コストがかなり高く、精度と効率のトレードオフを浮き彫りにしながら、従来の手法よりも優れていることがわかった。
さらに、LLMは詩や時間的変動(1920年以前のテキストと1920年以降のテキスト)のようなジャンル固有の課題に対処し、それらの文脈学習能力が、ドメイン固有のトレーニングデータの必要性を減らすことで、歴史的テキストへのNLPアプローチを前進させることができることを示した。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Adapting Multilingual Embedding Models to Historical Luxembourgish [5.474797258314828]
本研究では,歴史的ルクセンブルク語における言語間セマンティック検索のための多言語埋め込みについて検討した。
文のセグメンテーションと翻訳にはGPT-4oを使用し、言語ペア毎に20,000の並列トレーニング文を生成する。
コントラスト学習や知識蒸留により,複数の多言語埋め込みモデルを適応させ,全てのモデルの精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T20:35:29Z) - NER4all or Context is All You Need: Using LLMs for low-effort, high-performance NER on historical texts. A humanities informed approach [0.03187482513047917]
我々は,NERの2つの主要なNLPフレームワークにおいて,手軽に利用できる,最先端のLCMが顕著に優れていることを示す。
提案手法は,NLPツールの確立に必要なスクリプティング言語や計算能力の障壁を取り除くことで,すべての歴史学者がNERにアクセスできるようにする。
論文 参考訳(メタデータ) (2025-02-04T16:54:23Z) - Large Language Models for Stemming: Promises, Pitfalls and Failures [34.91311006478368]
本研究では,文脈理解の能力を活用して,大言語モデル(LLM)を用いて単語を綴じるという有望なアイデアについて検討する。
我々は,LLMを幹細胞として用いることと,Porter や Krovetz といった従来の語彙ステムマーを英語のテキストとして用いることと比較した。
論文 参考訳(メタデータ) (2024-02-19T01:11:44Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Lexicon and Rule-based Word Lemmatization Approach for the Somali
Language [0.0]
レマタイズ(Lemmatization)は、単語の形態的派生を根本形に変化させることによってテキストを正規化する技法である。
本稿では,ソマリ語におけるテキスト・レマティゼーションの先駆者となる。
1247の根語の初期語彙と7173の派生的関連用語に辞書に存在しない単語を補綴する規則が組み込まれている。
論文 参考訳(メタデータ) (2023-08-03T14:31:57Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage
Span Labeling [0.2624902795082451]
SpanSegTagと名づけられた中国語単語分割と音声タグ付けのためのニューラルモデルを提案する。
実験の結果,BERTベースのモデルであるSpanSegTagは,CTB5,CTB6,UDデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2021-12-17T12:59:02Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。