論文の概要: Indexing Portuguese NLP Resources with PT-Pump-Up
- arxiv url: http://arxiv.org/abs/2401.15400v1
- Date: Sat, 27 Jan 2024 12:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:26:00.173343
- Title: Indexing Portuguese NLP Resources with PT-Pump-Up
- Title(参考訳): PTポンアップによるポルトガルのNLP資源の索引付け
- Authors: R\'uben Almeida, Ricardo Campos, Al\'ipio Jorge, S\'ergio Nunes
- Abstract要約: PT-Pump-Upは、リソースの分散を減らし、ポルトガルのNLPリソースへのアクセス性を改善するためのツールセットである。
提案は4つのソフトウェアコンポーネントに分割されている。利用可能なリソースをリストアップするWebプラットフォーム、ポルトガルのNLPリソースのロードを簡単にするためのクライアントサイドPythonパッケージ、プラットフォームを管理するための管理Pythonパッケージ、将来のコラボレーションとコントリビューションを促進するためのGitHubリポジトリである。
- 参考スコア(独自算出の注目度): 1.3668501188706672
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recent advances in natural language processing (NLP) are linked to
training processes that require vast amounts of corpora. Access to this data is
commonly not a trivial process due to resource dispersion and the need to
maintain these infrastructures online and up-to-date. New developments in NLP
are often compromised due to the scarcity of data or lack of a shared
repository that works as an entry point to the community. This is especially
true in low and mid-resource languages, such as Portuguese, which lack data and
proper resource management infrastructures. In this work, we propose
PT-Pump-Up, a set of tools that aim to reduce resource dispersion and improve
the accessibility to Portuguese NLP resources. Our proposal is divided into
four software components: a) a web platform to list the available resources; b)
a client-side Python package to simplify the loading of Portuguese NLP
resources; c) an administrative Python package to manage the platform and d) a
public GitHub repository to foster future collaboration and contributions. All
four components are accessible using: https://linktr.ee/pt_pump_up
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、大量のコーパスを必要とする訓練プロセスと結びついている。
このデータへのアクセスは、リソース分散とこれらインフラストラクチャのオンラインおよび最新性を維持する必要性のため、一般的には簡単なプロセスではありません。
NLPの新しい開発は、データの不足や、コミュニティへのエントリポイントとして機能する共有リポジトリの欠如によって、しばしば妥協される。
これは特に、データや適切なリソース管理インフラを持たないポルトガルなど、低リソース言語や中リソース言語において当てはまる。
本研究では,資源分散の低減と,ポルトガルのNLPリソースへのアクセシビリティ向上を目的としたPT-Pump-Upを提案する。
私たちの提案は4つのソフトウェアコンポーネントに分割されています。
a) 利用可能な資源をリストアップするWebプラットフォーム
b) ポルトガルのNLPリソースのロードを簡略化するクライアント側Pythonパッケージ。
c) プラットフォームを管理するための管理Pythonパッケージ、および
d) 今後のコラボレーションとコントリビューションを促進するための公開githubリポジトリ。
4つのコンポーネントはすべて、https://linktr.ee/pt_pump_upを使ってアクセスできます。
関連論文リスト
- CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - VNLP: Turkish NLP Package [0.0]
VNLPは、トルコ語のための最先端自然言語処理(NLP)パッケージである。
テキスト分割やテキスト正規化といった最も単純なタスクから、テキストやトークンの分類モデルといったより高度なタスクまで、幅広いツールが含まれている。
VNLPには、オープンソースのGitHubリポジトリ、ReadtheDocsドキュメント、便利なインストールのためのPyPiパッケージ、Python、コマンドラインAPIがある。
論文 参考訳(メタデータ) (2024-03-02T20:46:56Z) - HugNLP: A Unified and Comprehensive Library for Natural Language
Processing [14.305751154503133]
本稿では,HugingFace Transformersのバックエンドを備えた自然言語処理(NLP)ライブラリであるHugNLPを紹介する。
HugNLPは、モデル、プロセッサ、アプリケーションを含む階層構造で構成され、異なるNLPタスクで事前訓練された言語モデル(PLM)の学習プロセスを統一する。
論文 参考訳(メタデータ) (2023-02-28T03:38:26Z) - LaoPLM: Pre-trained Language Models for Lao [3.2146309563776416]
事前訓練された言語モデル(PLM)は、コンテキストにおける異なるレベルの概念をキャプチャし、普遍的な言語表現を生成する。
PTMは、ほとんどのNLPアプリケーションで広く使われているが、Lao NLP研究ではあまり使われていない。
ラオス語の資源管理状況を軽減するために,テキスト分類データセットを構築した。
本稿では,ラオスにおけるトランスフォーマーベースのPTMを,BERT-small,BERT-base,ELECTRA-small,ELECTRA-baseの4つのバージョンで提案する。
論文 参考訳(メタデータ) (2021-10-12T11:13:07Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - FedNLP: A Research Platform for Federated Learning in Natural Language
Processing [55.01246123092445]
NLPのフェデレーションラーニングのための研究プラットフォームであるFedNLPを紹介します。
FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。
FedNLPによる予備実験では、分散型データセットと集中型データセットの学習には大きなパフォーマンスギャップが存在することが明らかになった。
論文 参考訳(メタデータ) (2021-04-18T11:04:49Z) - A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文 参考訳(メタデータ) (2021-03-02T16:19:44Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - pyBART: Evidence-based Syntactic Transformations for IE [52.93947844555369]
pyBARTは、英語のUD木を拡張UDグラフに変換するためのオープンソースのPythonライブラリである。
パターンに基づく関係抽出のシナリオで評価すると、より少ないパターンを必要としながら、より高精細なUDよりも高い抽出スコアが得られる。
論文 参考訳(メタデータ) (2020-05-04T07:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。