論文の概要: MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain
- arxiv url: http://arxiv.org/abs/2108.06955v1
- Date: Mon, 16 Aug 2021 08:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:18:44.840311
- Title: MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain
- Title(参考訳): MobIE: 移動領域における名前付きエンティティ認識、エンティティリンク、関係抽出のためのドイツのデータセット
- Authors: Leonhard Hennig and Phuc Tran Truong and Aleksandra Gabryszak
- Abstract要約: データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
- 参考スコア(独自算出の注目度): 76.21775236904185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MobIE, a German-language dataset, which is human-annotated with 20
coarse- and fine-grained entity types and entity linking information for
geographically linkable entities. The dataset consists of 3,232 social media
texts and traffic reports with 91K tokens, and contains 20.5K annotated
entities, 13.1K of which are linked to a knowledge base. A subset of the
dataset is human-annotated with seven mobility-related, n-ary relation types,
while the remaining documents are annotated using a weakly-supervised labeling
approach implemented with the Snorkel framework. To the best of our knowledge,
this is the first German-language dataset that combines annotations for NER, EL
and RE, and thus can be used for joint and multi-task learning of these
fundamental information extraction tasks. We make MobIE public at
https://github.com/dfki-nlp/mobie.
- Abstract(参考訳): 地理的にリンク可能なエンティティのための,20の粗い,きめ細かいエンティティタイプとエンティティリンク情報を備えた,ドイツ語のデータセットであるMobIEを提案する。
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含み、そのうち13.1Kは知識ベースにリンクされている。
データセットのサブセットは7つのモビリティ関連のn-aryリレーションタイプを持つ人間アノテーションであり、残りのドキュメントはsnorkelフレームワークで実装された弱い教師付きラベリングアプローチを使用してアノテートされる。
我々の知る限り、このデータセットは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語のデータセットであり、これらの基本的な情報抽出タスクの共用およびマルチタスク学習に使用できる。
MobIEはhttps://github.com/dfki-nlp/mobie.comで公開しています。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - AsNER -- Annotated Dataset and Baseline for Assamese Named Entity
recognition [7.252817150901275]
提案されたNERデータセットは、ディープニューラルネットワークベースのアサマセ言語処理のための重要なリソースである可能性が高い。
我々は、NERモデルをトレーニングしてデータセットをベンチマークし、教師付きエンティティ認識のための最先端アーキテクチャを用いて評価する。
全てのベースラインの中で最も高いF1スコアは、単語埋め込み法として MuRIL を使用する場合、80.69%の精度を達成する。
論文 参考訳(メタデータ) (2022-07-07T16:45:55Z) - AIFB-WebScience at SemEval-2022 Task 12: Relation Extraction First --
Using Relation Extraction to Identify Entities [0.0]
本稿では,変換器に基づく言語モデルに基づくエンドツーエンドのジョイントエンティティと関係抽出手法を提案する。
実体抽出と関係抽出を連続的に行う既存手法とは対照的に,本システムは関係抽出からの情報を実体抽出に組み込む。
論文 参考訳(メタデータ) (2022-03-10T12:19:44Z) - KazNERD: Kazakh Named Entity Recognition Dataset [5.094176584161206]
本稿では,カザフスタンのエンティティ認識のためのデータセットの開発について述べる。
データセットは、カザフ語で公開されている注釈付きコーパスの必要性が明白であるとして構築された。
得られたデータセットには、112,702の文と、25のエンティティクラスのための136,333のアノテーションが含まれている。
論文 参考訳(メタデータ) (2021-11-26T10:56:19Z) - Interpretable and Low-Resource Entity Matching via Decoupling Feature
Learning from Decision Making [22.755892575582788]
Entity Matchingは、同じ現実世界のオブジェクトを表すエンティティレコードを認識することを目的としている。
異種情報融合(HIF)とキー属性ツリー(KAT)誘導からなる新しいEMフレームワークを提案する。
提案手法は効率が高く,ほとんどの場合SOTA EMモデルより優れている。
論文 参考訳(メタデータ) (2021-06-08T08:27:31Z) - Cross-lingual Entity Alignment with Incidental Supervision [76.66793175159192]
本稿では,多言語KGとテキストコーパスを共通埋め込み方式で共同で表現する,偶発的に教師付きモデルであるJEANSを提案する。
ベンチマークデータセットの実験では、JEANSがエンティティアライメントとインシデントインシデントインシデントインスペクションの改善を期待できる結果となった。
論文 参考訳(メタデータ) (2020-05-01T01:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。