論文の概要: KIND: an Italian Multi-Domain Dataset for Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2112.15099v1
- Date: Thu, 30 Dec 2021 15:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 14:26:19.876713
- Title: KIND: an Italian Multi-Domain Dataset for Named Entity Recognition
- Title(参考訳): KIND: 名前付きエンティティ認識のためのイタリアのマルチドメインデータセット
- Authors: Teresa Paccosi, Alessio Palmero Aprosio
- Abstract要約: KINDは、名前付きエンティティ認識のためのイタリアのデータセットである。
アノテーションには3つのクラス(人、場所、組織)を含む100万以上のトークンが含まれている。
データセット(約600Kトークン)のほとんどは、ニュース、文学、政治談話という3つの異なる領域に手動の金のアノテーションを含んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present KIND, an Italian dataset for Named-Entity
Recognition. It contains more than one million tokens with the annotation
covering three classes: persons, locations, and organizations. Most of the
dataset (around 600K tokens) contains manual gold annotations in three
different domains: news, literature, and political discourses. Texts and
annotations are downloadable for free from the Github repository.
- Abstract(参考訳): 本稿では,名前付きエンティティ認識のためのイタリアのデータセットであるKINDについて述べる。
アノテーションには3つのクラス(人、場所、組織)を含む100万以上のトークンが含まれている。
データセット(約600万トークン)のほとんどは、ニュース、文学、政治談話という3つの異なるドメインの手動の金アノテーションを含んでいる。
テキストとアノテーションはGithubリポジトリから無料でダウンロードできる。
関連論文リスト
- MSNER: A Multilingual Speech Dataset for Named Entity Recognition [34.88608417778945]
名前付きエンティティを付加した多言語音声コーパスであるMSNERを紹介する。
これは4つの言語でVoxPopuliデータセットにアノテーションを提供する。
その結果、トレーニングと検証のために590時間15時間の銀の注釈付きスピーチと、17時間手動の注釈付き評価セットが得られた。
論文 参考訳(メタデータ) (2024-05-19T11:17:00Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - L3Cube-MahaSent-MD: A Multi-domain Marathi Sentiment Analysis Dataset
and Transformer Models [1.5749416770494706]
MahaSent-MDは、Indicの感情環境における最初の総合的なマルチドメイン感情分析データセットである。
データセットは,3つの異なる感情 – 肯定的,否定的,中立的 – をカバーする,約6万件のタグ付けされたサンプルで構成されている。
これらのデータセット上で単言語モデルと多言語BERTモデルを微調整し、MahaBERTモデルで最良の精度を報告する。
論文 参考訳(メタデータ) (2023-06-24T07:27:53Z) - DaMuEL: A Large Multilingual Dataset for Entity Linking [2.8273701718153563]
DaMuELは、エンティティに関する言語に依存しない情報を含む知識ベースと、知識ベースにリンクされたエンティティの言及を持つウィキペディアテキストの2つのコンポーネントから構成される。
データセットには、知識ベースに279万個の名前付きエンティティと、Wikipediaのテキストから12.3Gトークンが含まれている。
論文 参考訳(メタデータ) (2023-06-15T17:15:52Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for
Multilingual Named Entity Recognition [94.1865071914727]
MultiCoNERは、複数の言語に対する短文と低文設定で意味的に曖昧な名前のエンティティを検出することを目的としている。
我々のチームDAMO-NLPは知識に基づくシステムを提案し、ウィキペディアに基づく多言語知識ベースを構築する。
入力文が与えられた場合,本システムは知識ベースから関連コンテキストを効果的に検索する。
我々のシステムはMultiCoNER共有タスクで13トラック中10トラックを獲得した。
論文 参考訳(メタデータ) (2022-03-01T15:29:35Z) - Razmecheno: Named Entity Recognition from Digital Archive of Diaries
"Prozhito" [1.4823641127537543]
本稿では,ロシア語のプロジェクトProzhitoの日記テキストから収集した新しいデータセット"Razmecheno"を作成することを目的とする。
ラズメチーノは1331の文と14119のトークンで構成されており、ペレストロイカ時代に書かれた日記から採集されている。
論文 参考訳(メタデータ) (2022-01-24T23:06:01Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。