論文の概要: Open-Source Web Service with Morphological Dictionary-Supplemented Deep Learning for Morphosyntactic Analysis of Czech
- arxiv url: http://arxiv.org/abs/2406.12422v1
- Date: Tue, 18 Jun 2024 09:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:46:52.525069
- Title: Open-Source Web Service with Morphological Dictionary-Supplemented Deep Learning for Morphosyntactic Analysis of Czech
- Title(参考訳): チェコ語形態素解析のための形態素辞書対応ディープラーニングによるオープンソースWebサービス
- Authors: Milan Straka, Jana Straková,
- Abstract要約: チェコ語形態素解析のためのオープンソースのWebサービスを提案する。
このシステムは、推論時の高精度な形態素辞書による深層学習モデルと再構成を組み合わせる。
- 参考スコア(独自算出の注目度): 1.7871207544302354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an open-source web service for Czech morphosyntactic analysis. The system combines a deep learning model with rescoring by a high-precision morphological dictionary at inference time. We show that our hybrid method surpasses two competitive baselines: While the deep learning model ensures generalization for out-of-vocabulary words and better disambiguation, an improvement over an existing morphological analyser MorphoDiTa, at the same time, the deep learning model benefits from inference-time guidance of a manually curated morphological dictionary. We achieve 50% error reduction in lemmatization and 58% error reduction in POS tagging over MorphoDiTa, while also offering dependency parsing. The model is trained on one of the currently largest Czech morphosyntactic corpora, the PDT-C 1.0, with the trained models available at https://hdl.handle.net/11234/1-5293. We provide the tool as a web service deployed at https://lindat.mff.cuni.cz/services/udpipe/. The source code is available at GitHub (https://github.com/ufal/udpipe/tree/udpipe-2), along with a Python client for a simple use. The documentation for the models can be found at https://ufal.mff.cuni.cz/udpipe/2/models#czech_pdtc1.0_model.
- Abstract(参考訳): チェコ語形態素解析のためのオープンソースのWebサービスを提案する。
このシステムは、推論時の高精度な形態素辞書による深層学習モデルと再構成を組み合わせる。
ディープラーニングモデルは、語彙外単語の一般化と曖昧さの向上を保証するが、既存の形態素解析器であるMorphoDiTaよりも改善され、同時に、深層学習モデルは手作業による形態素辞書の推測時間指導の恩恵を受ける。
また,MorphoDiTa上のPOSタグの50%の誤り低減と58%の誤り低減を実現し,依存性解析も提供する。
このモデルは、現在チェコ最大のモルフォシンタクティックコーポラであるPDT-C 1.0で訓練されており、訓練されたモデルはhttps://hdl.handle.net/11234/1-5293で利用可能である。
私たちはこのツールをhttps://lindat.mff.cuni.cz/services/udpipe/.comにデプロイしたWebサービスとして提供します。
ソースコードはGitHubで入手できる(https://github.com/ufal/udpipe/tree/udpipe-2)。
モデルのドキュメントはhttps://ufal.mff.cuni.cz/udpipe/2/models#czech_pdtc1.0_modelにある。
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - MorphPiece : A Linguistic Tokenizer for Large Language Models [3.8073142980733]
基礎となるテキストの形態的セグメンテーションにもとづく言語的に動機付けられたトークン化スキームであるMorphPieceを提案する。
このトークン化器(MorphGPTと呼ばれる)で訓練されたGPTスタイルの因果言語モデルは、様々な教師付きおよび教師なしのNLPタスクにおいて同等または優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-07-14T10:35:04Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - COMBO: State-of-the-Art Morphosyntactic Analysis [0.0]
COMBOは、音声の正確なタグ付け、形態解析、補綴、および(強化された)依存性解析のための完全に神経的なNLPシステムである。
隠れた層から抽出したベクトル表現を公開しながら、分類的形態合成特性を予測する。
40以上の言語で、トレーニング済みのモデルを自動的にダウンロードして、Pythonパッケージをインストールするのは簡単です。
論文 参考訳(メタデータ) (2021-09-11T20:00:20Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Automated Prediction of Medieval Arabic Diacritics [1.290382979353427]
本研究は,長期記憶に基づく双方向リカレントニューラルネットワークアーキテクチャを訓練した文字レベルのニューラルマシン翻訳手法を用いて,中世アラビア語の診断を行った。
論文 参考訳(メタデータ) (2020-10-11T15:21:01Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。