論文の概要: PLOD: An Abbreviation Detection Dataset for Scientific Documents
- arxiv url: http://arxiv.org/abs/2204.12061v1
- Date: Tue, 26 Apr 2022 03:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 23:12:32.620588
- Title: PLOD: An Abbreviation Detection Dataset for Scientific Documents
- Title(参考訳): plod: 科学文書のための省略検出データセット
- Authors: Leonardo Zilio, Hadeel Saadany, Prashant Sharma, Diptesh Kanojia,
Constantin Orasan
- Abstract要約: PLODは、省略検出と抽出のための大規模なデータセットである。
略語と長い形で自動的に注釈付けされた160k以上のセグメントを含んでいる。
略語や長い形を検出するために,いくつかのベースラインモデルを生成する。
- 参考スコア(独自算出の注目度): 8.085950562565893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The detection and extraction of abbreviations from unstructured texts can
help to improve the performance of Natural Language Processing tasks, such as
machine translation and information retrieval. However, in terms of publicly
available datasets, there is not enough data for training
deep-neural-networks-based models to the point of generalising well over data.
This paper presents PLOD, a large-scale dataset for abbreviation detection and
extraction that contains 160k+ segments automatically annotated with
abbreviations and their long forms. We performed manual validation over a set
of instances and a complete automatic validation for this dataset. We then used
it to generate several baseline models for detecting abbreviations and long
forms. The best models achieved an F1-score of 0.92 for abbreviations and 0.89
for detecting their corresponding long forms. We release this dataset along
with our code and all the models publicly in
https://github.com/surrey-nlp/AbbreviationDetRepo.
- Abstract(参考訳): 非構造化テキストからの略語の検出と抽出は、機械翻訳や情報検索などの自然言語処理タスクの性能を向上させるのに役立つ。
しかし、公開されているデータセットに関しては、ディープ・ニューラル・ネットワークベースのモデルをトレーニングするのに十分なデータがない。
そこで本稿では,160k以上のセグメントを省略文と長文で自動アノテートした,短縮検出と抽出のための大規模データセットであるplodを提案する。
一連のインスタンスに対して手動検証を行い、このデータセットの完全な自動検証を行った。
その後、省略や長い形を検出するためにいくつかのベースラインモデルを生成しました。
最高のモデルでは0.92の略語でF1スコアを獲得し、0.89の長形を検知した。
このデータセットとコードおよびすべてのモデルをhttps://github.com/surrey-nlp/AbbreviationDetRepoで公開しています。
関連論文リスト
- Distantly Supervised Morpho-Syntactic Model for Relation Extraction [0.27195102129094995]
テキストから制約のない関係の集合を抽出し分類する手法を提案する。
ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-18T14:17:40Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - An Ensemble Approach to Acronym Extraction using Transformers [7.88595796865485]
頭字語は、文中の句の初期成分を用いて構築された句の省略単位である。
本稿では,アクロニム抽出の課題に対するアンサンブルアプローチについて論じる。
論文 参考訳(メタデータ) (2022-01-09T14:49:46Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - DCoM: A Deep Column Mapper for Semantic Data Type Detection [0.0]
我々は,多入力NLPに基づくディープニューラルネットワークの集合であるDCoMを導入し,セマンティックデータ型を検出する。
78種類の意味データ型を持つVizNetコーパスから抽出した686,765個のデータ列上でDCoMを訓練する。
論文 参考訳(メタデータ) (2021-06-24T10:12:35Z) - Neural Data-to-Text Generation with LM-based Text Augmentation [27.822282190362856]
弱教師付きトレーニングパラダイムは10%未満のアノテーションで完全に教師付きセq2seqモデルより優れていることを示す。
すべての注釈付きデータを利用することで、標準のSeq2seqモデルの性能を5 BLEUポイント以上向上させることができる。
論文 参考訳(メタデータ) (2021-02-06T10:21:48Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。