論文の概要: Morphological Synthesizer for Ge'ez Language: Addressing Morphological Complexity and Resource Limitations
- arxiv url: http://arxiv.org/abs/2509.20341v1
- Date: Wed, 24 Sep 2025 17:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.924314
- Title: Morphological Synthesizer for Ge'ez Language: Addressing Morphological Complexity and Resource Limitations
- Title(参考訳): Ge'ez言語の形態的合成:形態的複雑さと資源制限に対処する
- Authors: Gebrearegawi Gebremariam, Hailay Teklehaymanot, Gebregewergs Mezgebe,
- Abstract要約: 規則に基づくゲエズ形態素合成器を提案し,言語の形態構造に応じて根語から表面語を生成する。
このシステムは97.4%の性能を達成し、ベースラインモデルよりも優れており、言語の形態的バリエーションを考慮した総合的なシステムを構築するべきであると示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ge'ez is an ancient Semitic language renowned for its unique alphabet. It serves as the script for numerous languages, including Tigrinya and Amharic, and played a pivotal role in Ethiopia's cultural and religious development during the Aksumite kingdom era. Ge'ez remains significant as a liturgical language in Ethiopia and Eritrea, with much of the national identity documentation recorded in Ge'ez. These written materials are invaluable primary sources for studying Ethiopian and Eritrean philosophy, creativity, knowledge, and civilization. Ge'ez has a complex morphological structure with rich inflectional and derivational morphology, and no usable NLP has been developed and published until now due to the scarcity of annotated linguistic data, corpora, labeled datasets, and lexicons. Therefore, we propose a rule-based Ge'ez morphological synthesizer to generate surface words from root words according to the morphological structures of the language. We used 1,102 sample verbs, representing all verb morphological structures, to test and evaluate the system. The system achieves a performance of 97.4%, outperforming the baseline model and suggesting that future work should build a comprehensive system considering morphological variations of the language. Keywords: Ge'ez, NLP, morphology, morphological synthesizer, rule-based
- Abstract(参考訳): ゲエズ語(Ge'ez)は、古代セム語の一種。
ティグリニャ語やアムハラ語を含む多くの言語の台本として機能し、アクサム朝時代のエチオピアの文化的・宗教的発展に重要な役割を果たした。
ゲエズ語は、エチオピアとエリトリアの典礼語として重要であり、ゲエズに記録されている国家的アイデンティティの文書の多くも残されている。
これらの資料はエチオピア哲学やエリトリア哲学、創造性、知識、文明を研究する上で重要な資料である。
Ge'ezは複雑な形態構造を持ち、豊富な屈折と導出の形態を持ち、注釈付き言語データ、コーパス、ラベル付きデータセット、辞書が不足しているため、現在まで使用可能なNLPは開発されていない。
そこで本研究では,言語の形態構造に応じて,根語から表面語を生成する規則に基づくゲエズ型形態素合成器を提案する。
我々は,全ての動詞形態を表す1,102個のサンプル動詞を用いて,システムの試験と評価を行った。
このシステムは97.4%の性能を達成し、ベースラインモデルよりも優れており、言語の形態的バリエーションを考慮した総合的なシステムを構築するべきであると示唆している。
キーワード:Ge'ez, NLP, 形態学, 形態学的シンセサイザー, ルールベース
関連論文リスト
- chDzDT: Word-level morphology-aware language model for Algerian social media text [0.0]
chDzDT(chDzDT)は、アルジェリア語の形態に合わせた文字レベルの事前訓練言語モデルである。
トークン境界や標準化された正書法に依存することなく、孤立した単語で訓練される。
複数のスクリプトと言語的バリエーションをカバーしており、結果としてかなりの事前学習の作業負荷が生じる。
論文 参考訳(メタデータ) (2025-09-01T21:09:55Z) - UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings [0.0]
接尾辞は、単語に付加的な意味と文法的機能を加えることによって、単語の形態解析において重要な役割を果たす。
本稿では,ユーズベク語の形態解析のモデル化について述べる。
提案されたモデルに基づく開発ツールは、WebベースのアプリケーションとオープンソースのPythonライブラリとして利用できる。
論文 参考訳(メタデータ) (2024-05-23T05:06:55Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Comparing Spoken Languages using Paninian System of Sounds and Finite State Machines [0.0]
我々はサンスクリットを中心とする言語開発のための生態系モデルを提案する。
言語間の単語を音声マップ上の状態遷移として表現し,それに対応する形態的有限オートマタを構築する。
論文 参考訳(メタデータ) (2023-01-29T15:22:10Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。
我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。
本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文 参考訳(メタデータ) (2021-01-22T12:04:08Z) - Deciphering Undersegmented Ancient Scripts Using Phonetic Prior [31.707254394215283]
ほとんどの未解読失語言語は、重要な解読課題を引き起こす2つの特徴を持っている。
豊かな言語制約を基礎として,これらの課題に対処するモデルを提案する。
我々は、解読された言語(ゴシック語、ウガル語)と未解読言語(イベリア語)の両方でモデルを評価する。
論文 参考訳(メタデータ) (2020-10-21T15:03:52Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。