論文の概要: HuSpaCy: an industrial-strength Hungarian natural language processing
toolkit
- arxiv url: http://arxiv.org/abs/2201.01956v1
- Date: Thu, 6 Jan 2022 07:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 14:09:06.965610
- Title: HuSpaCy: an industrial-strength Hungarian natural language processing
toolkit
- Title(参考訳): HuSpaCy:ハンガリーの産業用自然言語処理ツールキット
- Authors: Gy\"orgy Orosz, Zsolt Sz\'ant\'o, P\'eter Berkecz, Gerg\H{o} Szab\'o,
Rich\'ard Farkas
- Abstract要約: 言語処理パイプラインは、最先端の補題化、形態素合成分析、エンティティ認識、単語埋め込みによって構成されるべきである。
本稿では,ハンガリー語処理パイプラインのHuSpaCyを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although there are a couple of open-source language processing pipelines
available for Hungarian, none of them satisfies the requirements of today's NLP
applications. A language processing pipeline should consist of close to
state-of-the-art lemmatization, morphosyntactic analysis, entity recognition
and word embeddings. Industrial text processing applications have to satisfy
non-functional software quality requirements, what is more, frameworks
supporting multiple languages are more and more favored. This paper introduces
HuSpaCy, an industryready Hungarian language processing pipeline. The presented
tool provides components for the most important basic linguistic analysis
tasks. It is open-source and is available under a permissive license. Our
system is built upon spaCy's NLP components which means that it is fast, has a
rich ecosystem of NLP applications and extensions, comes with extensive
documentation and a well-known API. Besides the overview of the underlying
models, we also present rigorous evaluation on common benchmark datasets. Our
experiments confirm that HuSpaCy has high accuracy in all subtasks while
maintaining resource-efficient prediction capabilities.
- Abstract(参考訳): ハンガリー語で利用可能なオープンソースの言語処理パイプラインはいくつかあるが、いずれも今日のNLPアプリケーションの要件を満たしていない。
言語処理パイプラインは、最先端の補間、形態素解析、エンティティ認識、単語埋め込みで構成される必要がある。
産業用テキスト処理アプリケーションは、機能しないソフトウェアの品質要件を満たす必要があり、さらに、複数の言語をサポートするフレームワークがますます好まれている。
本稿では,ハンガリー語処理パイプラインのHuSpaCyを紹介する。
提示されたツールは、最も重要な基本言語分析タスクにコンポーネントを提供する。
オープンソースであり、許容ライセンスのもと利用できる。
私たちのシステムはspurCyのNLPコンポーネント上に構築されており、高速で、NLPアプリケーションと拡張のリッチなエコシステムを持ち、豊富なドキュメントとよく知られたAPIを備えています。
基礎となるモデルの概要に加えて、一般的なベンチマークデータセットの厳密な評価も提示する。
実験の結果,HuSpaCyは全てのサブタスクにおいて高い精度を示しながら,資源効率の予測能力を維持していることがわかった。
関連論文リスト
- CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Advancing Hungarian Text Processing with HuSpaCy: Efficient and Accurate
NLP Pipelines [0.0]
本稿では,ハンガリーにおける産業レベルのテキスト処理モデルについて述べる。
モデルはspurCyフレームワークで実装され、HuSpaCyツールキットを拡張した。
すべての実験は再現可能であり、パイプラインはパーミッシブライセンスの下で自由に利用できる。
論文 参考訳(メタデータ) (2023-08-24T08:19:51Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - ANGLEr: A Next-Generation Natural Language Exploratory Framework [0.0]
提案した設計は、ANGLErと呼ばれる新しい自然言語処理フレームワークの実装に使用されている。
提案されたフレームワークの主な部分は,(a)プラグイン可能なDockerベースのアーキテクチャ,(b)汎用データモデル,(c)グラフィカルユーザインターフェースを備えたAPI記述で構成される。
論文 参考訳(メタデータ) (2022-05-10T13:32:13Z) - Dim Wihl Gat Tun: The Case for Linguistic Expertise in NLP for
Underdocumented Languages [6.8708103492634836]
何百もの未保存言語が、言語ドキュメントの取り組みから、インターリニアグロステキスト(IGT)という形でデータソースを提供している。
ターゲット言語の専門知識が利用可能であれば、IGTデータをうまく活用できると仮定する。
本研究は,Tsimchianic Language Gitksanのための形態的再帰システムの構築に関する事例研究を通じて,各ステップについて解説する。
論文 参考訳(メタデータ) (2022-03-17T22:02:25Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - How Low is Too Low? A Computational Perspective on Extremely
Low-Resource Languages [1.7625363344837164]
シュメール語のための最初の言語間情報抽出パイプラインを紹介する。
また、低リソースNLPのための解釈可能性ツールキットであるInterpretLRをキュレートする。
パイプラインのほとんどのコンポーネントは、解釈可能な実行を得るために、他の言語に一般化することができます。
論文 参考訳(メタデータ) (2021-05-30T12:09:59Z) - A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文 参考訳(メタデータ) (2021-03-02T16:19:44Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。