論文の概要: Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs
- arxiv url: http://arxiv.org/abs/2603.15773v1
- Date: Mon, 16 Mar 2026 18:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.931737
- Title: Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs
- Title(参考訳): 境界のない形態:アラビアの農夫とLLMにおけるルートパタン形態の評価
- Authors: Yara Alakeel, Chatrine Qwaider, Hanan Aldarmaki, Sawsan Alqahtani,
- Abstract要約: 本研究では,大言語モデル(LLM)がアラビア語根パターン形態をいかに効果的に表現し,生成するかを検討する。
本研究は,金標準セグメンテーションに対するアラビアおよび多言語トークン化剤間の形態的忠実度の評価から始まった。
以上の結果から, コントラマイザの形態的アライメントは形態的アライメントに必要ではなく, かつ, 形態的アライメントに十分であることが明らかとなった。
- 参考スコア(独自算出の注目度): 6.520393736113561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates how effectively large language models (LLMs) and their tokenization schemes represent and generate Arabic root-pattern morphology, probing whether they capture genuine morphological structure or rely on surface memorization. Arabic morphological system provides a rich testbed for analyzing how LLMs handle complex, non-concatenative forms and how tokenization choices influence this process. Our study begins with an evaluation of morphological fidelity across Arabic and multilingual tokenizers against gold-standard segmentation, followed by an analysis of LLM performance in productive root-pattern generation using a newly developed test set. Our findings across seven Arabic-centric and multilingual LLMs and their respective tokenizers reveal that tokenizer morphological alignment is not necessary nor sufficient for morphological generation, which questions the role of morphological tokenization in downstream performance.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)とそのトークン化スキームがアラビアの根パターン形態をいかに効果的に表現し,生成するかを検討する。
アラビアの形態体系は、LLMが複雑な非大陸の形式をどのように扱うか、トークン化の選択がこのプロセスにどのように影響するかを分析するための豊富なテストベッドを提供する。
本研究は,金標準セグメンテーションに対するアラビアおよび多言語トークン化剤間の形態的忠実度の評価から始まり,新たに開発された試験セットを用いた生産的根パターン生成におけるLLM性能の解析を行った。
7種類のアラビア系および多言語系LLMおよびそれらのトークン化剤を対象とし, コントラスト化剤の形態的アライメントは形態的アライメントに必要でもなく, かつ, 形態的アライメントに十分であることが明らかとなった。
関連論文リスト
- Arabic Morphosyntactic Tagging and Dependency Parsing with Large Language Models [13.143003615122245]
大規模言語モデル(LLM)は多くのNLPタスクで強く機能するが、明示的な言語構造を生成する能力は未だ不明である。
アラビア標準語における2つの構造的予測タスク(モルフォシンタクティックタグ付けとラベル付き依存解析)について,命令調整型LLMの評価を行った。
論文 参考訳(メタデータ) (2026-03-17T16:06:29Z) - IMPACT: Inflectional Morphology Probes Across Complex Typologies [0.0]
IMPACTは、屈折形態学に焦点を当てた、合成的に生成された評価フレームワークである。
アラビア語、ロシア語、フィンランド語、トルコ語、ヘブライ語という5つの形態学的に豊かな言語のパフォーマンスを評価するように設計されている。
英語のパフォーマンスが強いにもかかわらず、他の言語と競合する8つの多言語LLMと、一般的でない形態素パターンを評価した。
論文 参考訳(メタデータ) (2025-06-30T14:58:23Z) - Evaluating Morphological Compositional Generalization in Large Language Models [17.507983593566223]
大規模言語モデル (LLM) の形態的一般化能力について, 構成性のレンズによる検討を行った。
我々はトルコ語やフィンランド語などの凝集言語に焦点を当てている。
解析の結果,LLMは特に新規語根に適用する場合,形態的構成一般化に苦慮していることが明らかとなった。
モデルは偶然よりも個々の形態的組み合わせを識別できるが、その性能は体系性に欠けており、人間に比べてかなりの精度の差が生じる。
論文 参考訳(メタデータ) (2024-10-16T15:17:20Z) - A Morphology-Based Investigation of Positional Encodings [46.667985003225496]
形態と語順は密接に結びついており、後者は位置符号化によってトランスフォーマーモデルに組み込まれている。
言語の形態的複雑さと、事前訓練された言語モデルにおける位置エンコーディングの利用との間には相関があるのだろうか?
本研究は,22の言語と5の下流タスクを対象とする,この問題に対処する最初の研究である。
論文 参考訳(メタデータ) (2024-04-06T07:10:47Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Explicit Morphological Knowledge Improves Pre-training of Language
Models for Hebrew [19.4968960182412]
事前学習フェーズに明示的な形態的知識を組み込むことで、形態学的に豊かな言語に対するPLMの性能を向上させることができるという仮説を考察する。
本研究では, モデルが生テキスト以外の形態的手がかりを活用できるように, 様々な形態的トークン化手法を提案する。
実験により, 形態素によるトークン化は, 標準言語に依存しないトークン化と比較して, 改良された結果を示すことが示された。
論文 参考訳(メタデータ) (2023-11-01T17:02:49Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。