論文の概要: NameTag 3: A Tool and a Service for Multilingual/Multitagset NER
- arxiv url: http://arxiv.org/abs/2506.05949v1
- Date: Fri, 06 Jun 2025 10:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.42338
- Title: NameTag 3: A Tool and a Service for Multilingual/Multitagset NER
- Title(参考訳): NameTag 3: 多言語/多言語NERのためのツールとサービス
- Authors: Jana Straková, Milan Straka,
- Abstract要約: NameTag 3は、多言語、マルチデータセット、マルチタグのエンティティ認識のためのオープンソースツールである。
コマンドラインツールとして、およびクラウドベースのサービスとして利用可能で、ローカルインストールなしで使用することができる。
- 参考スコア(独自算出の注目度): 1.7871207544302354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce NameTag 3, an open-source tool and cloud-based web service for multilingual, multidataset, and multitagset named entity recognition (NER), supporting both flat and nested entities. NameTag 3 achieves state-of-the-art results on 21 test datasets in 15 languages and remains competitive on the rest, even against larger models. It is available as a command-line tool and as a cloud-based service, enabling use without local installation. NameTag 3 web service currently provides flat NER for 17 languages, trained on 21 corpora and three NE tagsets, all powered by a single 355M-parameter fine-tuned model; and nested NER for Czech, powered by a 126M fine-tuned model. The source code is licensed under open-source MPL 2.0, while the models are distributed under non-commercial CC BY-NC-SA 4.0. Documentation is available at https://ufal.mff.cuni.cz/nametag, source code at https://github.com/ufal/nametag3, and trained models via https://lindat.cz. The REST service and the web application can be found at https://lindat.mff.cuni.cz/services/nametag/. A demonstration video is available at https://www.youtube.com/watch?v=-gaGnP0IV8A.
- Abstract(参考訳): 我々は,多言語,マルチデータセット,マルチタグ名前付きエンティティ認識(NER)のためのオープンソースツールおよびクラウドベースのWebサービスであるNameTag 3を紹介し,フラットおよびネストされたエンティティの両方をサポートする。
NameTag 3は15の言語で21のテストデータセットの最先端の結果を達成し、より大きなモデルに対してさえ、残りは競争力を維持している。
コマンドラインツールとして、およびクラウドベースのサービスとして利用可能で、ローカルインストールなしで使用することができる。
NameTag 3は現在、17の言語に対してフラットなNERを提供しており、21のコーパスと3つのNEタグセットでトレーニングされている。
ソースコードはオープンソースMPL 2.0でライセンスされ、モデルはCC BY-NC-SA 4.0で配布される。
ドキュメンテーションはhttps://ufal.mff.cuni.cz/nametagで、ソースコードはhttps://github.com/ufal/nametag3で、トレーニングされたモデルはhttps://lindat.czで入手できる。
REST サービスと Web アプリケーションは https://lindat.mff.cuni.cz/services/nametag/ で確認できる。
デモビデオはhttps://www.youtube.com/watch?
v=-gaGnP0IV8A。
関連論文リスト
- "I've Heard of You!": Generate Spoken Named Entity Recognition Data for Unseen Entities [59.22329574700317]
名前付きエンティティ認識(NER)は、名前付きエンティティを音声から識別することを目的としている。
しかし、新しい名前のエンティティが毎日現れ、Spoken NERデータに注釈をつけるのはコストがかかる。
そこで本稿では,NEDに基づく音声NERデータ生成手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T07:43:18Z) - GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages [53.56700754408902]
GlotCCは、ClomCrawlから派生した、クリーンでドキュメントレベルの2TBの汎用ドメインコーパスである。
我々はGlotCCと、それを生成するためのシステムを作成し、研究コミュニティに提供します。
論文 参考訳(メタデータ) (2024-10-31T11:14:12Z) - Medical Spoken Named Entity Recognition [18.348129901298652]
医療領域における最初の音声NERデータセットであるVietMed-NERを紹介する。
我々の知る限り、ベトナムの現実世界のデータセットは、エンティティの型数に関する世界最大のNERデータセットである。
論文 参考訳(メタデータ) (2024-06-19T08:39:09Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - SEE-Few: Seed, Expand and Entail for Few-shot Named Entity Recognition [17.344816459055835]
名前付きエンティティ認識(NER)は、わずかにラベル付きインスタンスに基づいて名前付きエンティティを識別することを目的としている。
そこで本研究では,Few-shot NERのためのマルチタスク学習フレームワークであるSEE-Fewを提案する。
4つのベンチマークデータセットによる実験結果から,提案手法は最先端のNER法よりも大きなマージンを有することがわかった。
論文 参考訳(メタデータ) (2022-10-11T17:20:47Z) - MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity
Recognition [15.805414696789796]
我々は、11言語にわたる3つのドメイン(ウィキ文、質問、検索クエリ)をカバーする、名前付きエンティティ認識のための大規模な多言語データセットであるMultiCoNERを提案する。
このデータセットは、低コンテキストシナリオを含む、NERの現代的課題を表現するように設計されている。
論文 参考訳(メタデータ) (2022-08-30T20:45:54Z) - An Embarrassingly Easy but Strong Baseline for Nested Named Entity
Recognition [55.080101447586635]
スコア行列の空間関係をモデル化するために,コナールニューラルネットワーク(CNN)を提案する。
提案手法は, 事前学習したエンコーダと同一の手法である。
論文 参考訳(メタデータ) (2022-08-09T04:33:46Z) - ParaNames: A Massively Multilingual Entity Name Corpus [2.741266294612776]
ParaNamesは、約1400万のエンティティの名前からなる多言語並列名リソースである。
Wikidataをソースとして、私たちはこのタイプの最も大きなリソースを作成します。
論文 参考訳(メタデータ) (2022-02-28T18:58:06Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。