論文の概要: RED$^{\rm FM}$: a Filtered and Multilingual Relation Extraction Dataset
- arxiv url: http://arxiv.org/abs/2306.09802v1
- Date: Fri, 16 Jun 2023 12:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:01:09.490789
- Title: RED$^{\rm FM}$: a Filtered and Multilingual Relation Extraction Dataset
- Title(参考訳): red$^{\rm fm}$:フィルタ付きおよび多言語関係抽出データセット
- Authors: Pere-Llu\'is Huguet Cabot and Simone Tedeschi and Axel-Cyrille Ngonga
Ngomo and Roberto Navigli
- Abstract要約: 本稿では,多言語関係抽出システムの訓練と評価を可能にする2つの新しいリソースを提案する。
まず、SRED$rm FM$という18の言語、400のリレーショナルタイプ、13のエンティティタイプを含む自動アノテーション付きデータセットを提示する。
第2にRED$rm FM$は、多言語REシステムの評価を可能にする7言語のための、より小さく、人間によって改訂されたデータセットである。
- 参考スコア(独自算出の注目度): 35.5973651237632
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Relation Extraction (RE) is a task that identifies relationships between
entities in a text, enabling the acquisition of relational facts and bridging
the gap between natural language and structured knowledge. However, current RE
models often rely on small datasets with low coverage of relation types,
particularly when working with languages other than English. In this paper, we
address the above issue and provide two new resources that enable the training
and evaluation of multilingual RE systems. First, we present SRED$^{\rm FM}$,
an automatically annotated dataset covering 18 languages, 400 relation types,
13 entity types, totaling more than 40 million triplet instances. Second, we
propose RED$^{\rm FM}$, a smaller, human-revised dataset for seven languages
that allows for the evaluation of multilingual RE systems. To demonstrate the
utility of these novel datasets, we experiment with the first end-to-end
multilingual RE model, mREBEL, that extracts triplets, including entity types,
in multiple languages. We release our resources and model checkpoints at
https://www.github.com/babelscape/rebel
- Abstract(参考訳): 関係抽出(re)は、テキスト内のエンティティ間の関係を識別し、関係事実の獲得を可能にし、自然言語と構造化知識の間のギャップを埋めるタスクである。
しかしながら、現在のREモデルは、特に英語以外の言語を扱う場合、関係型の少ない小さなデータセットに依存することが多い。
本稿では、上記の課題に対処し、多言語REシステムのトレーニングと評価を可能にする2つの新しいリソースを提供する。
まず、SRED$^{\rm FM}$という18の言語、400の関連型、13のエンティティ型、4000万以上のトリプルトインスタンスを含む自動アノテーション付きデータセットを提示します。
第2にRED$^{\rm FM}$は、多言語REシステムの評価を可能にする7言語のための、より小さく、人間による改訂されたデータセットである。
これらの新しいデータセットの有用性を実証するために、複数の言語で三つ子を抽出する最初のエンドツーエンド多言語REモデルmREBELを実験した。
私たちはリソースとモデルのチェックポイントをhttps://www.github.com/babelscape/rebelでリリースします。
関連論文リスト
- The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - A Data Bootstrapping Recipe for Low Resource Multilingual Relation
Classification [38.83366564843953]
IndoREは21Kのエンティティと3つのインド語と英語でタグ付けされた金の文を持つデータセットである。
まず,多言語BERT (mBERT) ベースのシステムから始める。
我々は、高価な金のインスタンスと翻訳された'銀のインスタンスと整合した'銀のインスタンスとの精度のトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:40:46Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。
データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。
両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文 参考訳(メタデータ) (2021-07-30T20:01:03Z) - DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation
Extraction [15.649929244635269]
これらの問題を緩和する新しいデータセットであるDiS-ReXを提案する。
私たちのデータセットには150万以上の文があり、36の関連クラスを持つ4つの言語にまたがっている。
また,mBERTを用いて文を符号化し,多言語DS-REのベンチマーク結果を提供する。
論文 参考訳(メタデータ) (2021-04-17T22:44:38Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - The RELX Dataset and Matching the Multilingual Blanks for Cross-Lingual
Relation Classification [0.0]
関係分類の現在のアプローチは、主に英語に焦点を当てている。
本稿では,多言語BERTに基づくベースラインモデルと,新しい多言語事前学習設定の2つの言語間関係分類モデルを提案する。
評価のために、英語、フランス語、ドイツ語、スペイン語、トルコ語における言語間関係分類のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-10-19T11:08:16Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。