論文の概要: TurkicNLP: An NLP Toolkit for Turkic Languages
- arxiv url: http://arxiv.org/abs/2602.19174v1
- Date: Sun, 22 Feb 2026 13:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.516952
- Title: TurkicNLP: An NLP Toolkit for Turkic Languages
- Title(参考訳): TurkicNLP: トルコ語のためのNLPツールキット
- Authors: Sherzod Hakimov,
- Abstract要約: TurkicNLPはPythonライブラリで、トルコ語のための単一の一貫したNLPパイプラインを提供する。
トークン化、形態解析、部分音声タグ付け、依存性解析、名前付きエンティティ認識、双方向スクリプトの文字変換、機械翻訳をカバーしている。
- 参考スコア(独自算出の注目度): 6.156016907917316
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Natural language processing for the Turkic language family, spoken by over 200 million people across Eurasia, remains fragmented, with most languages lacking unified tooling and resources. We present TurkicNLP, an open-source Python library providing a single, consistent NLP pipeline for Turkic languages across four script families: Latin, Cyrillic, Perso-Arabic, and Old Turkic Runic. The library covers tokenization, morphological analysis, part-of-speech tagging, dependency parsing, named entity recognition, bidirectional script transliteration, cross-lingual sentence embeddings, and machine translation through one language-agnostic API. A modular multi-backend architecture integrates rule-based finite-state transducers and neural models transparently, with automatic script detection and routing between script variants. Outputs follow the CoNLL-U standard for full interoperability and extension. Code and documentation are hosted at https://github.com/turkic-nlp/turkicnlp .
- Abstract(参考訳): ユーラシア全土で2億人以上の人々が話していたチュルク語族の自然言語処理は依然として断片化されており、ほとんどの言語には統一されたツールやリソースが欠けている。
我々は,オープンソースのPythonライブラリであるTurkicNLPを,ラテン文字,キリル文字,ペルソアラビア文字,旧トルキ文字ルーン文字の4つの文字族にまたがる単一の一貫したNLPパイプラインを提供する。
このライブラリはトークン化、形態解析、音声タグ付け、依存性解析、名前付きエンティティ認識、双方向スクリプトの文字変換、言語に依存しない1つのAPIによる機械翻訳をカバーしている。
モジュラーマルチバックエンドアーキテクチャは、ルールベースの有限状態トランスデューサとニューラルモデルを透過的に統合し、自動スクリプト検出とスクリプト変種間のルーティングを行う。
アウトプットは完全な相互運用性と拡張のためのCoNLL-U標準に従っている。
コードとドキュメントはhttps://github.com/turkic-nlp/turkicnlp にホストされている。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - VNLP: Turkish NLP Package [0.0]
VNLPは、トルコ語のための最先端自然言語処理(NLP)パッケージである。
テキスト分割やテキスト正規化といった最も単純なタスクから、テキストやトークンの分類モデルといったより高度なタスクまで、幅広いツールが含まれている。
VNLPには、オープンソースのGitHubリポジトリ、ReadtheDocsドキュメント、便利なインストールのためのPyPiパッケージ、Python、コマンドラインAPIがある。
論文 参考訳(メタデータ) (2024-03-02T20:46:56Z) - Benchmarking Procedural Language Understanding for Low-Resource
Languages: A Case Study on Turkish [2.396465363376008]
トルコの手続き文書について事例研究を行う。
まず、トルコのwikiHowにおけるチュートリアルの数を2000から52,000に拡張し、自動翻訳ツールを使用します。
我々は、コーパス上のいくつかのダウンストリームタスクを生成する。例えば、アクションのリンク、ゴール推論、要約などである。
論文 参考訳(メタデータ) (2023-09-13T03:42:28Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Mukayese: Turkish NLP Strikes Back [0.19116784879310023]
我々は、トルコ語などの言語が、NLPアプリケーションにおける最先端技術に置き去りにされていることを実証する。
トルコ語のNLPベンチマークのセットであるMukayeseを紹介します。
言語モデリング,文セグメンテーション,スペルチェックの4つの新しいベンチマークデータセットをトルコ語で提示する。
論文 参考訳(メタデータ) (2022-03-02T16:18:44Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Stanza: A Python Natural Language Processing Toolkit for Many Human
Languages [44.8226642800919]
我々は,オープンソースのPython自然言語処理ツールキットであるStanzaを紹介した。
Stanzaは、トークン化、マルチワードトークン拡張、レムマティゼーション、パート・オブ・音声、形態的特徴タグ付けなど、テキスト分析のための言語に依存しない完全なニューラルネットワークを備えている。
我々は、Universal Dependencies Treebanksや他の多言語コーパスを含む、合計112のデータセットでStanzaをトレーニングしました。
論文 参考訳(メタデータ) (2020-03-16T09:05:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。