論文の概要: Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation
- arxiv url: http://arxiv.org/abs/2602.04241v1
- Date: Wed, 04 Feb 2026 05:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.395432
- Title: Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation
- Title(参考訳): 尿中NLPのトークン化と形態的忠実度:言語横断的評価
- Authors: Nuo Xu, Ahrii Kim,
- Abstract要約: 本研究は3つのサブワードパラダイムであるByte Pairを体系的に比較する。
BPE(Overlap BPE)、OBPE(Overlap BPE)、Unigram Language Model(Unigram Language Model)。
OBPEは従来手法よりも強い形態的アライメントとタグ付け精度を実現する。
- 参考スコア(独自算出の注目度): 9.23725598061561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subword tokenization critically affects Natural Language Processing (NLP) performance, yet its behavior in morphologically rich and low-resource language families remains under-explored. This study systematically compares three subword paradigms -- Byte Pair Encoding (BPE), Overlap BPE (OBPE), and Unigram Language Model -- across six Uralic languages with varying resource availability and typological diversity. Using part-of-speech (POS) tagging as a controlled downstream task, we show that OBPE consistently achieves stronger morphological alignment and higher tagging accuracy than conventional methods, particularly within the Latin-script group. These gains arise from reduced fragmentation in open-class categories and a better balance across the frequency spectrum. Transfer efficacy further depends on the downstream tagging architecture, interacting with both training volume and genealogical proximity. Taken together, these findings highlight that morphology-sensitive tokenization is not merely a preprocessing choice but a decisive factor in enabling effective cross-lingual transfer for agglutinative, low-resource languages.
- Abstract(参考訳): サブワードのトークン化は自然言語処理(NLP)のパフォーマンスに重大な影響を及ぼすが、形態学的にリッチで低リソースの言語ファミリーにおけるその振る舞いはいまだ解明されていない。
本研究は,3つのサブワードパラダイム – Byte Pair Encoding (BPE), Overlap BPE (OBPE), Unigram Language Model – を,資源の可利用性と類型的多様性の異なる6言語で体系的に比較した。
制御された下流タスクとして部分音声タグ付け(POS)を用いると,OBPEは従来手法,特にラテン文字群において,より強力な形態的アライメントとタグ付け精度を一貫して達成できることが分かる。
これらの利得は、オープンクラスカテゴリの断片化が減少し、周波数スペクトル間のバランスが良くなることから生じる。
転送効率は下流のタグ付けアーキテクチャにさらに依存し、トレーニングボリュームと世代間近接の両方と相互作用する。
これらの知見は、形態素感受性のトークン化は単なる前処理の選択ではなく、凝集性低リソース言語に対する効果的な言語間移動を可能にする決定的な要因であることを示している。
関連論文リスト
- Subword Tokenization Strategies for Kurdish Word Embeddings [13.148440909737358]
最小限の手動アノテーションを用いたブートストラップトレーニングを用いたBiLSTM-CRF型形態素セグメンタを開発した。
我々は、類似性保存、クラスタリングの品質、セマンティックな組織を含む総合的なメトリクスにまたがるWord2Vecの埋め込みを評価した。
形態素ベースのトークン化は、より優れた埋め込み空間の組織、より優れた意味的近傍構造、モルフォロジーの複雑さレベルにおけるよりバランスのとれたカバレッジを示す。
論文 参考訳(メタデータ) (2025-11-18T17:33:32Z) - Tokenization Strategies for Low-Resource Agglutinative Languages in Word2Vec: Case Study on Turkish and Finnish [0.0]
トークン化は凝集言語処理において重要な役割を担っている。
本研究は,静的単語埋め込みの品質に及ぼす各種トークン化戦略の影響を評価する。
論文 参考訳(メタデータ) (2025-08-27T22:01:11Z) - How Important Is Tokenization in French Medical Masked Language Models? [7.866517623371908]
自然言語処理(NLP)分野において,サブワードトークン化が主流となっている。
本稿では,フランス生物医学領域におけるサブワードトークン化の複雑さを,多種多様なNLPタスクにまたがって探究する。
従来のトークン化手法に形態素に富んだ単語セグメンテーションを統合するオリジナルトークン化戦略を導入する。
論文 参考訳(メタデータ) (2024-02-22T23:11:08Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。