論文の概要: Advancing Hungarian Text Processing with HuSpaCy: Efficient and Accurate
NLP Pipelines
- arxiv url: http://arxiv.org/abs/2308.12635v1
- Date: Thu, 24 Aug 2023 08:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 14:45:39.178905
- Title: Advancing Hungarian Text Processing with HuSpaCy: Efficient and Accurate
NLP Pipelines
- Title(参考訳): HuSpaCyによるハンガリーのテキスト処理の改善: 効率的かつ高精度なNLPパイプライン
- Authors: Gy\"orgy Orosz and Gerg\H{o} Szab\'o and P\'eter Berkecz and Zsolt
Sz\'ant\'o and Rich\'ard Farkas
- Abstract要約: 本稿では,ハンガリーにおける産業レベルのテキスト処理モデルについて述べる。
モデルはspurCyフレームワークで実装され、HuSpaCyツールキットを拡張した。
すべての実験は再現可能であり、パイプラインはパーミッシブライセンスの下で自由に利用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a set of industrial-grade text processing models for
Hungarian that achieve near state-of-the-art performance while balancing
resource efficiency and accuracy. Models have been implemented in the spaCy
framework, extending the HuSpaCy toolkit with several improvements to its
architecture. Compared to existing NLP tools for Hungarian, all of our
pipelines feature all basic text processing steps including tokenization,
sentence-boundary detection, part-of-speech tagging, morphological feature
tagging, lemmatization, dependency parsing and named entity recognition with
high accuracy and throughput. We thoroughly evaluated the proposed
enhancements, compared the pipelines with state-of-the-art tools and
demonstrated the competitive performance of the new models in all text
preprocessing steps. All experiments are reproducible and the pipelines are
freely available under a permissive license.
- Abstract(参考訳): 本稿では,資源効率と精度のバランスを保ちながら,ほぼ最先端の性能を実現する,ハンガリーの産業用テキスト処理モデルを提案する。
モデルはpaCyフレームワークで実装され、アーキテクチャをいくつかの改善したHuSpaCyツールキットを拡張した。
既存のハンガリーのNLPツールと比較して、私たちのパイプラインはすべて、トークン化、文境界検出、音声の一部タグ付け、形態的特徴タグ付け、冗長化、依存性解析、名前付きエンティティ認識など、すべての基本的なテキスト処理ステップを、高い精度とスループットで備えています。
提案する機能拡張を徹底的に評価し,最先端ツールと比較し,テキスト前処理ステップにおける新モデルの競争力を実証した。
すべての実験は再現可能で、パイプラインは許容ライセンスの下で自由に利用できる。
関連論文リスト
- Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Pipeline and Dataset Generation for Automated Fact-checking in Almost
Any Language [0.0]
本稿では,公開言語モデルとデータを活用したファクトチェック自動化パイプラインを提案する。
パイプラインは,エビデンス検索とクレームの妥当性評価という,2つの主要なモジュールで構成されている。
チェコ語、英語、ポーランド語、スロバキア語パイプラインのすべてのデータと微調整されたモデルにオープンアクセスを提供しています。
論文 参考訳(メタデータ) (2023-12-15T19:43:41Z) - Neural Token Segmentation for High Token-Internal Complexity [7.569526565230962]
原文をワード単位に変換することは、NLPパイプラインにとって重要な前処理ステップである。
本稿では,文脈化トークン表現とチャレベルデコーディングを組み合わせたニューラルセグメンテーションモデルを提案する。
我々のモデルはヘブライ語とアラビア語の分節精度を最先端と比較して大幅に改善したことを示している。
論文 参考訳(メタデータ) (2022-03-21T10:07:17Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - HuSpaCy: an industrial-strength Hungarian natural language processing
toolkit [0.0]
言語処理パイプラインは、最先端の補題化、形態素合成分析、エンティティ認識、単語埋め込みによって構成されるべきである。
本稿では,ハンガリー語処理パイプラインのHuSpaCyを紹介する。
論文 参考訳(メタデータ) (2022-01-06T07:49:45Z) - DaCy: A Unified Framework for Danish NLP [1.2891210250935146]
DaCy: SpaCy上に構築されたデンマークNLPの統一フレームワークについて紹介する。
DaCyは、名前付きエンティティ認識、部分音声タグ付け、依存性解析で最先端のパフォーマンスを得る効率的なモデルを使用する。
デンマークのNLPパイプラインのバイアスとロバスト性に関する一連のテストは、DaNEのテストセットを拡張して実施する。
論文 参考訳(メタデータ) (2021-07-12T10:14:31Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。