論文の概要: Under-resourced studies of under-resourced languages: lemmatization and POS-tagging with LLM annotators for historical Armenian, Georgian, Greek and Syriac
- arxiv url: http://arxiv.org/abs/2602.15753v1
- Date: Tue, 17 Feb 2026 17:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.142557
- Title: Under-resourced studies of under-resourced languages: lemmatization and POS-tagging with LLM annotators for historical Armenian, Georgian, Greek and Syriac
- Title(参考訳): アンダーリソースド言語の研究--アルメニア語、グルジア語、ギリシャ語、シリア語に対するLLMアノテーションによる補題化とPOSタグ付け
- Authors: Chahan Vidal-Gorène, Bastien Kindt, Florian Cafiero,
- Abstract要約: 低リソース言語は、補題化や音声タグ付けのような自然言語処理タスクに永続的な課題をもたらす。
本稿では,近年の大規模言語モデルにおいて,これらの課題に対処する能力について考察する。
- 参考スコア(独自算出の注目度): 0.08496348835248901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-resource languages pose persistent challenges for Natural Language Processing tasks such as lemmatization and part-of-speech (POS) tagging. This paper investigates the capacity of recent large language models (LLMs), including GPT-4 variants and open-weight Mistral models, to address these tasks in few-shot and zero-shot settings for four historically and linguistically diverse under-resourced languages: Ancient Greek, Classical Armenian, Old Georgian, and Syriac. Using a novel benchmark comprising aligned training and out-of-domain test corpora, we evaluate the performance of foundation models across lemmatization and POS-tagging, and compare them with PIE, a task-specific RNN baseline. Our results demonstrate that LLMs, even without fine-tuning, achieve competitive or superior performance in POS-tagging and lemmatization across most languages in few-shot settings. Significant challenges persist for languages characterized by complex morphology and non-Latin scripts, but we demonstrate that LLMs are a credible and relevant option for initiating linguistic annotation tasks in the absence of data, serving as an effective aid for annotation.
- Abstract(参考訳): 低リソース言語は、冗長化やPOS(Part-of-speech)タグ付けのような自然言語処理タスクに永続的な課題をもたらす。
本稿では,古代ギリシア語,古典アルメニア語,古グルジア語,シリア語の4言語に対して,GPT-4変種とオープンウェイトミストラルモデルを含む最近の大規模言語モデル (LLM) の能力について検討する。
整合性トレーニングとドメイン外テストコーパスを組み合わせた新しいベンチマークを用いて、補題化とPOSタグ付けによる基礎モデルの性能を評価し、それらをタスク固有のRNNベースラインであるPIEと比較する。
以上の結果から, 微調整がなくても, POSタグやレマティゼーションの競争力や優れた性能を, 少数の設定で実現できることが示唆された。
複雑な形態学と非ラテン文字を特徴とする言語の課題は継続するが、LLMは、データがない場合に言語アノテーションタスクを開始するための信頼性と関連する選択肢であり、アノテーションの効果的な支援となることを実証する。
関連論文リスト
- Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning [0.0]
本稿では,ペルシャ自然言語処理タスクのためのオープンソースの大規模言語モデル (LLM) のベンチマークを示す。
我々は、感情分析、名前付きエンティティ認識、読書理解、質問応答など、様々なタスクのモデルを評価する。
その結果、Gemma 2は両方の学習パラダイムにおいて、ほぼすべてのタスクで、他のモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-05T10:10:04Z) - Evaluating Compact LLMs for Zero-Shot Iberian Language Tasks on End-User Devices [0.3141085922386211]
大規模言語モデルは、言語生成、翻訳、推論といったタスクにおいて顕著なパフォーマンスを達成するために、大幅に進歩した自然言語処理を持つ。
その相当な計算要件は、ハイエンドシステムへのデプロイメントを制限し、コンシューマグレードデバイスへのアクセシビリティを制限している。
本研究は,イベリア語に適したNLPタスクを網羅的に評価する。
論文 参考訳(メタデータ) (2025-04-04T09:47:58Z) - Modern Models, Medieval Texts: A POS Tagging Study of Old Occitan [0.1979158763744267]
大規模言語モデル (LLM) は自然言語処理において顕著な能力を示した。
本研究では,古オクシタンのPOSタグ付けにおけるオープンソースのLDMの性能について検討した。
論文 参考訳(メタデータ) (2025-03-10T20:16:01Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - EthioLLM: Multilingual Large Language Models for Ethiopian Languages with Task Evaluation [24.060772057458685]
本稿では,エチオピア語5言語(Amharic, Ge'ez, Afan Oromo, Somali, Tigrinya)と英語の多言語大言語モデルであるEthioLLMを紹介する。
我々は,5つの下流自然言語処理(NLP)タスクにおいて,これらのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-03-20T16:43:42Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。