論文の概要: Unveiling Factors for Enhanced POS Tagging: A Study of Low-Resource Medieval Romance Languages
- arxiv url: http://arxiv.org/abs/2506.17715v1
- Date: Sat, 21 Jun 2025 13:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.555491
- Title: Unveiling Factors for Enhanced POS Tagging: A Study of Low-Resource Medieval Romance Languages
- Title(参考訳): POSタグ強化のための展開要因:低資源中世ロマンス言語の研究
- Authors: Matthias Schöffel, Esteban Garces Arias, Marinus Wiedner, Paula Ruppert, Meimingwei Li, Christian Heumann, Matthias Aßenmacher,
- Abstract要約: Part-of-speech (POS) タグは、自然言語処理パイプラインの基本コンポーネントである。
本研究は,中世オクシタン,中世スペイン語,中世フランス語の多種多様なコーパスにおけるPOSタグ付け性能の中央決定要因を体系的に検討した。
- 参考スコア(独自算出の注目度): 0.18846515534317265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Part-of-speech (POS) tagging remains a foundational component in natural language processing pipelines, particularly critical for historical text analysis at the intersection of computational linguistics and digital humanities. Despite significant advancements in modern large language models (LLMs) for ancient languages, their application to Medieval Romance languages presents distinctive challenges stemming from diachronic linguistic evolution, spelling variations, and labeled data scarcity. This study systematically investigates the central determinants of POS tagging performance across diverse corpora of Medieval Occitan, Medieval Spanish, and Medieval French texts, spanning biblical, hagiographical, medical, and dietary domains. Through rigorous experimentation, we evaluate how fine-tuning approaches, prompt engineering, model architectures, decoding strategies, and cross-lingual transfer learning techniques affect tagging accuracy. Our results reveal both notable limitations in LLMs' ability to process historical language variations and non-standardized spelling, as well as promising specialized techniques that effectively address the unique challenges presented by low-resource historical languages.
- Abstract(参考訳): POS(Part-of-speech)タグ付けは、自然言語処理パイプラインにおける基礎的な要素であり、特に計算言語学とデジタル人文科学の交差点における歴史的テキスト解析において重要である。
古代の言語に対する近代的な大規模言語モデル(LLM)の大幅な進歩にもかかわらず、中世ロマンス語への応用は、ディオクロニクスの言語進化、綴りのバリエーション、ラベル付きデータの不足から生じる独特な課題を呈している。
本研究は, 中世オクシタン, 中世スペイン語, 中世フランス語の多種多様なコーパスにおけるPOSタグ付け性能の中枢的決定要因を, 聖書, 書誌, 医学, 食生活の領域にわたって系統的に検討した。
厳密な実験を通じて、微調整アプローチ、エンジニアリングの促進、モデルアーキテクチャ、復号化戦略、言語間移動学習技術がタグ付け精度にどのように影響するかを評価する。
この結果から,LLMの歴史的言語変種処理能力や非標準スペル処理能力の限界や,低リソースの歴史的言語がもたらす固有の課題に効果的に対処する,有望な専門技術が明らかとなった。
関連論文リスト
- Named Entity Recognition in Historical Italian: The Case of Giacomo Leopardi's Zibaldone [4.795582035438343]
歴史的テキストの課題に適応できる計算技術が緊急に必要である。
大規模言語モデル(LLM)の台頭は、自然言語処理に革命をもたらした。
イタリア語のテキストに対する詳細な評価は提案されていない。
論文 参考訳(メタデータ) (2025-05-26T15:16:48Z) - Modern Models, Medieval Texts: A POS Tagging Study of Old Occitan [0.1979158763744267]
大規模言語モデル (LLM) は自然言語処理において顕著な能力を示した。
本研究では,古オクシタンのPOSタグ付けにおけるオープンソースのLDMの性能について検討した。
論文 参考訳(メタデータ) (2025-03-10T20:16:01Z) - Adapting Multilingual Embedding Models to Historical Luxembourgish [5.474797258314828]
本研究では,歴史的ルクセンブルク語における言語間セマンティック検索のための多言語埋め込みについて検討した。
文のセグメンテーションと翻訳にはGPT-4oを使用し、言語ペア毎に20,000の並列トレーニング文を生成する。
コントラスト学習や知識蒸留により,複数の多言語埋め込みモデルを適応させ,全てのモデルの精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T20:35:29Z) - NER4all or Context is All You Need: Using LLMs for low-effort, high-performance NER on historical texts. A humanities informed approach [0.03187482513047917]
我々は,NERの2つの主要なNLPフレームワークにおいて,手軽に利用できる,最先端のLCMが顕著に優れていることを示す。
提案手法は,NLPツールの確立に必要なスクリプティング言語や計算能力の障壁を取り除くことで,すべての歴史学者がNERにアクセスできるようにする。
論文 参考訳(メタデータ) (2025-02-04T16:54:23Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。