論文の概要: PERLEX: A Bilingual Persian-English Gold Dataset for Relation Extraction
- arxiv url: http://arxiv.org/abs/2005.06588v1
- Date: Wed, 13 May 2020 21:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 13:06:33.602594
- Title: PERLEX: A Bilingual Persian-English Gold Dataset for Relation Extraction
- Title(参考訳): PERLEX:関係抽出のためのバイリンガルペルシア英語ゴールドデータセット
- Authors: Majid Asgari-Bidhendi, Mehrdad Nasser, Behrooz Janfada, Behrouz
Minaei-Bidgoli
- Abstract要約: PERLEXはペルシア語における関係抽出のための最初のデータセットである。
提案したバイリンガルデータセットに6種類のモデルを用いて関係抽出を行う。
実験の結果、ペルシア語における関係抽出の最先端技術としてfスコア77.66%の最大値が得られた。
- 参考スコア(独自算出の注目度): 6.10917825357379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relation extraction is the task of extracting semantic relations between
entities in a sentence. It is an essential part of some natural language
processing tasks such as information extraction, knowledge extraction, and
knowledge base population. The main motivations of this research stem from a
lack of a dataset for relation extraction in the Persian language as well as
the necessity of extracting knowledge from the growing big-data in the Persian
language for different applications. In this paper, we present "PERLEX" as the
first Persian dataset for relation extraction, which is an expert-translated
version of the "Semeval-2010-Task-8" dataset. Moreover, this paper addresses
Persian relation extraction utilizing state-of-the-art language-agnostic
algorithms. We employ six different models for relation extraction on the
proposed bilingual dataset, including a non-neural model (as the baseline),
three neural models, and two deep learning models fed by multilingual-BERT
contextual word representations. The experiments result in the maximum f-score
77.66% (provided by BERTEM-MTB method) as the state-of-the-art of relation
extraction in the Persian language.
- Abstract(参考訳): 関係抽出は文中のエンティティ間の意味関係を抽出するタスクである。
これは、情報抽出、知識抽出、知識ベース人口といった自然言語処理タスクの不可欠な部分である。
この研究の主な動機は、ペルシア語における関係抽出のためのデータセットの欠如と、ペルシア語で成長しているビッグデータから異なる用途のために知識を抽出する必要があることにある。
本稿では,"Semeval-2010-Task-8"データセットのエキスパート翻訳版である,関係抽出のための最初のペルシア語データセットとして"PERLEX"を提案する。
本稿では,最先端言語非依存アルゴリズムを用いたペルシャ関係抽出について述べる。
提案するバイリンガルモデル(ベースライン),3つのニューラルモデル,多言語・バート文脈表現による2つの深層学習モデルを含む,多言語データセットにおける関係抽出に6つの異なるモデルを用いる。
実験の結果、ペルシャ語における関係抽出の最先端技術として、最大fスコア77.66%(BERTEM-MTB法で提供される)が得られた。
関連論文リスト
- MixRED: A Mix-lingual Relation Extraction Dataset [35.5919056167744]
我々はMixREと呼ばれる混合言語シナリオにおける関係抽出を考慮した新しいタスクを提案する。
MixREDデータセットの構築に加えて,MixRED上での最先端教師付きモデルと大規模言語モデル(LLM)の評価を行った。
論文 参考訳(メタデータ) (2024-03-23T03:18:14Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - ImPaKT: A Dataset for Open-Schema Knowledge Base Construction [10.073210304061966]
ImPaKTは、ショッピングドメイン(商品購入ガイド)におけるC4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットである。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
論文 参考訳(メタデータ) (2022-12-21T05:02:49Z) - Towards Relation Extraction From Speech [56.36416922396724]
本稿では,新たな聴取情報抽出タスク,すなわち音声関係抽出を提案する。
本研究では,音声合成システムによる音声関係抽出のための訓練データセットを構築し,英語母語話者によるクラウドソーシングによるテストデータセットを構築した。
我々は,音声関係抽出における課題を識別するための包括的実験を行い,今後の探索に光を当てる可能性がある。
論文 参考訳(メタデータ) (2022-10-17T05:53:49Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Improving Persian Relation Extraction Models by Data Augmentation [0.0]
本システムの結果と結果について述べる。
PERLEXをベースデータセットとして使用し、テキスト前処理のステップを適用して拡張する。
次に、拡張PERLEXデータセット上の関係抽出にParsBERTとmultilingual BERTの2つの異なるモデルを用いる。
論文 参考訳(メタデータ) (2022-03-29T08:08:47Z) - Improving Sentence-Level Relation Extraction through Curriculum Learning [7.117139527865022]
本稿では,学習の難易度でデータを分割し,学習に活用するカリキュラムベースの関係抽出モデルを提案する。
代表文レベルの関係抽出データセットであるTACREDとRe-TACREDを用いた実験では,提案手法は良好な性能を示した。
論文 参考訳(メタデータ) (2021-07-20T08:44:40Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。