論文の概要: Subword Tokenization Strategies for Kurdish Word Embeddings
- arxiv url: http://arxiv.org/abs/2511.14696v1
- Date: Tue, 18 Nov 2025 17:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.238071
- Title: Subword Tokenization Strategies for Kurdish Word Embeddings
- Title(参考訳): クルド語埋め込みのためのサブワードトークン化戦略
- Authors: Ali Salehi, Cassandra L. Jacobs,
- Abstract要約: 最小限の手動アノテーションを用いたブートストラップトレーニングを用いたBiLSTM-CRF型形態素セグメンタを開発した。
我々は、類似性保存、クラスタリングの品質、セマンティックな組織を含む総合的なメトリクスにまたがるWord2Vecの埋め込みを評価した。
形態素ベースのトークン化は、より優れた埋め込み空間の組織、より優れた意味的近傍構造、モルフォロジーの複雑さレベルにおけるよりバランスのとれたカバレッジを示す。
- 参考スコア(独自算出の注目度): 13.148440909737358
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We investigate tokenization strategies for Kurdish word embeddings by comparing word-level, morpheme-based, and BPE approaches on morphological similarity preservation tasks. We develop a BiLSTM-CRF morphological segmenter using bootstrapped training from minimal manual annotation and evaluate Word2Vec embeddings across comprehensive metrics including similarity preservation, clustering quality, and semantic organization. Our analysis reveals critical evaluation biases in tokenization comparison. While BPE initially appears superior in morphological similarity, it evaluates only 28.6\% of test cases compared to 68.7\% for morpheme model, creating artificial performance inflation. When assessed comprehensively, morpheme-based tokenization demonstrates superior embedding space organization, better semantic neighborhood structure, and more balanced coverage across morphological complexity levels. These findings highlight the importance of coverage-aware evaluation in low-resource language processing and offers different tokenization methods for low-resourced language processing.
- Abstract(参考訳): 形態的類似性保存タスクにおける単語レベル,形態素ベースおよびBPEアプローチの比較により,クルド語単語埋め込みのトークン化戦略について検討した。
最小限の手書きアノテーションから自己資金で学習し,類似性保存,クラスタリング品質,セマンティック組織といった総合的な指標にまたがるWord2Vecの埋め込みを評価する。
分析の結果,トークン化比較において重要な評価バイアスが明らかとなった。
BPEは、当初は形態学的類似性に優れていたが、形態素モデルでは68.7\%に比べて28.6\%の試験ケースしか評価せず、人工的な性能インフレーションを生み出している。
包括的に評価すると、形態素ベースのトークン化は、より優れた埋め込み空間の組織、より優れたセマンティックな近傍構造、そしてモルフォロジーの複雑さレベルにわたるよりバランスの取れたカバレッジを示す。
これらの知見は,低リソース言語処理におけるカバレッジ・アウェア・アセスメントの重要性を強調し,低リソース言語処理のための異なるトークン化手法を提供する。
関連論文リスト
- CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - Tokenization Strategies for Low-Resource Agglutinative Languages in Word2Vec: Case Study on Turkish and Finnish [0.0]
トークン化は凝集言語処理において重要な役割を担っている。
本研究は,静的単語埋め込みの品質に及ぼす各種トークン化戦略の影響を評価する。
論文 参考訳(メタデータ) (2025-08-27T22:01:11Z) - Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment [8.097278579432908]
トークン化アルゴリズムの選択はパフォーマンスに影響する最も重要な要因であり、Unigramベースのトークン化アルゴリズムは、ほとんどの設定において一貫してBPEを上回っている。
より優れた形態的アライメントは、テキスト分類や構造予測タスクのパフォーマンスと適度で正の相関を示すが、その影響はトークン化アルゴリズムに準じる。
論文 参考訳(メタデータ) (2025-08-11T19:23:59Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - The Effectiveness of Morphology-aware Segmentation in Low-Resource
Neural Machine Translation [0.6091702876917281]
本稿では,低リソースのニューラルマシン翻訳環境において,いくつかの現代的サブワードセグメンテーション手法の性能評価を行う。
BPEをトークンレベルまたは文レベルで適用したセグメントと、LMVRおよびMORSELの形態に基づくセグメンテーションを比較します。
論文 参考訳(メタデータ) (2021-03-20T14:39:25Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。