論文の概要: Tokenization Matters: Improving Zero-Shot NER for Indic Languages
- arxiv url: http://arxiv.org/abs/2504.16977v1
- Date: Wed, 23 Apr 2025 17:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.109244
- Title: Tokenization Matters: Improving Zero-Shot NER for Indic Languages
- Title(参考訳): トークン化の課題: インデックス言語のためのゼロショットNERの改善
- Authors: Priyaranjan Pattnayak, Hitesh Laxmichand Patel, Amit Agarwal,
- Abstract要約: トークン化は自然言語処理(NLP)の重要な構成要素である
この研究は、BPE、SentencePiece、およびIndic言語を用いた文字レベルのトークン化戦略を体系的に比較する。
その結果、SentencePieceは低リソースのIndic言語において、NERのBPEよりも一貫して優れたパフォーマンスのアプローチであることがわかった。
- 参考スコア(独自算出の注目度): 2.964265227875254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization is a critical component of Natural Language Processing (NLP), especially for low resource languages, where subword segmentation influences vocabulary structure and downstream task accuracy. Although Byte Pair Encoding (BPE) is a standard tokenization method in multilingual language models, its suitability for Named Entity Recognition (NER) in low resource Indic languages remains underexplored due to its limitations in handling morphological complexity. In this work, we systematically compare BPE, SentencePiece, and Character Level tokenization strategies using IndicBERT for NER tasks in low resource Indic languages like Assamese, Bengali, Marathi, and Odia, as well as extremely low resource Indic languages like Santali, Manipuri, and Sindhi. We assess both intrinsic linguistic properties tokenization efficiency, out of vocabulary (OOV) rates, and morphological preservation as well as extrinsic downstream performance, including fine tuning and zero shot cross lingual transfer. Our experiments show that SentencePiece is a consistently better performing approach than BPE for NER in low resource Indic Languages, particularly in zero shot cross lingual settings, as it better preserves entity consistency. While BPE provides the most compact tokenization form, it is not capable of generalization because it misclassifies or even fails to recognize entity labels when tested on unseen languages. In contrast, SentencePiece constitutes a better linguistic structural preservation model, benefiting extremely low resource and morphologically rich Indic languages, such as Santali and Manipuri, for superior entity recognition, as well as high generalization across scripts, such as Sindhi, written in Arabic. The results point to SentencePiece as the more effective tokenization strategy for NER within multilingual and low resource Indic NLP applications.
- Abstract(参考訳): トークン化は自然言語処理(NLP)の重要な要素であり、特に低リソース言語ではサブワードセグメンテーションが語彙構造や下流タスクの精度に影響を与える。
Byte Pair Encoding (BPE) は多言語言語モデルにおける標準的なトークン化手法であるが,その構造的複雑性に制限があるため,低リソースのIndic言語における名前付きエンティティ認識(NER)への適合性は未解明のままである。
本研究では,Assamese,Bengali,Marathi,Odiaといった低リソースのIndic言語や,Santali,Manipuri,Sindhiといった極めて低リソースのIndic言語を用いて,BPE,SentencePiece,およびIndicBERTを用いた文字レベルのトークン化戦略を体系的に比較する。
内在言語特性のトークン化効率,語彙外(OOV)レート,形態的保存,および微調整やゼロショットクロスリンガル転送を含む外因性下流特性の評価を行った。
我々の実験によると、SentencePieceは低リソースのインデックス言語、特にゼロショットの言語間設定において、エンティティの一貫性をよりよく保つため、NERのBPEよりも一貫して優れたパフォーマンスのアプローチである。
BPEは最もコンパクトなトークン化形式を提供するが、未確認言語でテストされたエンティティラベルを誤って分類したり、認識できなかったりするため、一般化はできない。
対照的に、SentencePieceはより優れた言語構造保存モデルを構成しており、サンタリ語やマニプリ語のような非常に低資源で形態的に豊かなインド語を、優れた実体認識のために利用し、アラビア語で書かれたシンディー語のようなスクリプトをまたいだ高い一般化を享受している。
その結果、SentencePieceは、多言語および低リソースのIndic NLPアプリケーションにおいて、NERのより効果的なトークン化戦略であることを示している。
関連論文リスト
- Krutrim LLM: A Novel Tokenization Strategy for Multilingual Indic Languages with Petabyte-Scale Data Processing [0.9517284168469607]
我々は,多言語Indic大言語モデル構築のためのデータ準備のための新しいアプローチを開発する。
われわれの厳密なデータ取得は、Common Crawl、Indic Book、ニュース記事、Wikipediaなど、オープンソースとプロプライエタリなソースにまたがっている。
Indic言語毎に、冗長で低品質なテキストコンテンツを効果的に除去するカスタムプリプロセッシングパイプラインを設計する。
論文 参考訳(メタデータ) (2024-07-17T11:06:27Z) - Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding [3.0422770070015295]
本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。
提案手法を類似言語対の実験により検証する。
また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
論文 参考訳(メタデータ) (2023-05-21T06:46:33Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Vy\=akarana: A Colorless Green Benchmark for Syntactic Evaluation in
Indic Languages [0.0]
インジケート言語は、豊富なモーフィオシンタックス、文法的ジェンダー、自由な線形単語順序、および高インフレクション型形態学を有する。
Vy=akarana - 多言語言語モデルの構文評価のためのIndic言語における性別バランスの取れたカラーレスグリーン文のベンチマーク。
評価タスクから得られたデータセットを用いて、さまざまなアーキテクチャの5つの多言語言語モデルをIndic言語で調べる。
論文 参考訳(メタデータ) (2021-03-01T09:07:58Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - LSCP: Enhanced Large Scale Colloquial Persian Language Understanding [2.7249643773851724]
ラージスケール・コロクィアル・ペルシア語データセット」は、低リソース言語におけるコロクィアル言語を記述することを目的としている。
提案したコーパスは,2700万のツイートに解析木,音声タグ,感情の極性,5つの言語による翻訳を付加した1億2000万文からなる。
論文 参考訳(メタデータ) (2020-03-13T22:24:14Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。