論文の概要: Improving Persian Relation Extraction Models by Data Augmentation
- arxiv url: http://arxiv.org/abs/2203.15323v1
- Date: Tue, 29 Mar 2022 08:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 03:12:23.945852
- Title: Improving Persian Relation Extraction Models by Data Augmentation
- Title(参考訳): データ拡張によるペルシャ関係抽出モデルの改善
- Authors: Moein Salimi Sartakhti, Romina Etezadi, Mehrnoush Shamsfard
- Abstract要約: 本システムの結果と結果について述べる。
PERLEXをベースデータセットとして使用し、テキスト前処理のステップを適用して拡張する。
次に、拡張PERLEXデータセット上の関係抽出にParsBERTとmultilingual BERTの2つの異なるモデルを用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relation extraction that is the task of predicting semantic relation type
between entities in a sentence or document is an important task in natural
language processing. Although there are many researches and datasets for
English, Persian suffers from sufficient researches and comprehensive datasets.
The only available Persian dataset for this task is PERLEX, which is a Persian
expert-translated version of the SemEval-2010-Task-8 dataset. In this paper, we
present our augmented dataset and the results and findings of our system,
participated in the Persian relation Extraction shared task of NSURL 2021
workshop. We use PERLEX as the base dataset and enhance it by applying some
text preprocessing steps and by increasing its size via data augmentation
techniques to improve the generalization and robustness of applied models. We
then employ two different models including ParsBERT and multilingual BERT for
relation extraction on the augmented PERLEX dataset. Our best model obtained
64.67% of Macro-F1 on the test phase of the contest and it achieved 83.68% of
Macro-F1 on the test set of PERLEX.
- Abstract(参考訳): 文や文書のエンティティ間の意味関係型を予測するタスクである関係抽出は、自然言語処理において重要なタスクである。
英語には多くの研究やデータセットがあるが、ペルシャ語は十分な研究と包括的なデータセットに苦しむ。
このタスクで利用可能なペルシアのデータセットは、SemEval-2010-Task-8データセットのペルシアの専門家翻訳版であるPERLEXのみである。
本稿では, NSURL 2021ワークショップにおいて, ペルシャ関係抽出共有タスクに参加した, 拡張データセットとシステムの結果と結果について述べる。
PERLEXをベースデータセットとして使用し,テキスト前処理ステップを適用し,データ拡張技術を用いてサイズを拡大することにより,応用モデルの一般化と堅牢性を向上させる。
次に、拡張PERLEXデータセット上の関係抽出にParsBERTとmultilingual BERTの2つの異なるモデルを用いる。
我々の最良のモデルはコンテストの試験段階でマクロF1の64.67%を獲得し、PERLEXのテストセットでマクロF1の83.68%を達成した。
関連論文リスト
- HYBRINFOX at CheckThat! 2024 -- Task 1: Enhancing Language Models with Structured Information for Check-Worthiness Estimation [0.8083061106940517]
本稿では,2024年 - タスク1コンペティションのためのHYBRINFOXチームの実験と結果について要約する。
本稿では,RoBERTaのような言語モデルに三重項による埋め込みを組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T11:33:54Z) - Information Extraction: An application to the domain of hyper-local financial data on developing countries [0.0]
この問題に対処する2つの自然言語処理技術(NLP)を開発し評価する。
まず、発展途上国の財務テキストデータのドメインに特有のカスタムデータセットをキュレートする。
次に,変換器をベースとしたT5モデルを用いてテキストからテキストへのアプローチを探索し,NERと関係抽出を同時に行うことを目的とする。
論文 参考訳(メタデータ) (2024-03-14T03:49:36Z) - NNOSE: Nearest Neighbor Occupational Skill Extraction [55.22292957778972]
作業スキルデータセットの複雑さに対処する。
我々は、データセット統一方式で類似したスキルを検索するために、外部データストアを使用します。
我々は、データセット間設定において、頻度の低いパターンを予測し、最大30%のスパンF1で性能向上を観察する。
論文 参考訳(メタデータ) (2024-01-30T15:18:29Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - A Simple and Efficient Ensemble Classifier Combining Multiple Neural
Network Models on Social Media Datasets in Vietnamese [2.7528170226206443]
本研究の目的は、ベトナムの3つのベンチマークデータセットから、ソーシャルメディア上のベトナム語のテキストを分類することである。
この研究では、CNN、LSTM、およびそれらの変種を含む高度なディープラーニングモデルを使用し、最適化されている。
私たちのアンサンブルモデルは、3つのデータセットで最高のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-09-28T04:28:48Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - PERLEX: A Bilingual Persian-English Gold Dataset for Relation Extraction [6.10917825357379]
PERLEXはペルシア語における関係抽出のための最初のデータセットである。
提案したバイリンガルデータセットに6種類のモデルを用いて関係抽出を行う。
実験の結果、ペルシア語における関係抽出の最先端技術としてfスコア77.66%の最大値が得られた。
論文 参考訳(メタデータ) (2020-05-13T21:06:59Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。