論文の概要: What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation
- arxiv url: http://arxiv.org/abs/2010.14678v1
- Date: Wed, 28 Oct 2020 00:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 05:22:30.296858
- Title: What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation
- Title(参考訳): この頭字語はどういう意味ですか。
頭字語識別と曖昧化のための新しいデータセットの導入
- Authors: Amir Pouran Ben Veyseh, Franck Dernoncourt, Quan Hung Tran, Thien Huu
Nguyen
- Abstract要約: 頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
- 参考スコア(独自算出の注目度): 74.42107665213909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acronyms are the short forms of phrases that facilitate conveying lengthy
sentences in documents and serve as one of the mainstays of writing. Due to
their importance, identifying acronyms and corresponding phrases (i.e., acronym
identification (AI)) and finding the correct meaning of each acronym (i.e.,
acronym disambiguation (AD)) are crucial for text understanding. Despite the
recent progress on this task, there are some limitations in the existing
datasets which hinder further improvement. More specifically, limited size of
manually annotated AI datasets or noises in the automatically created acronym
identification datasets obstruct designing advanced high-performing acronym
identification models. Moreover, the existing datasets are mostly limited to
the medical domain and ignore other domains. In order to address these two
limitations, we first create a manually annotated large AI dataset for
scientific domain. This dataset contains 17,506 sentences which is
substantially larger than previous scientific AI datasets. Next, we prepare an
AD dataset for scientific domain with 62,441 samples which is significantly
larger than the previous scientific AD dataset. Our experiments show that the
existing state-of-the-art models fall far behind human-level performance on
both datasets proposed by this work. In addition, we propose a new deep
learning model that utilizes the syntactical structure of the sentence to
expand an ambiguous acronym in a sentence. The proposed model outperforms the
state-of-the-art models on the new AD dataset, providing a strong baseline for
future research on this dataset.
- Abstract(参考訳): 頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する句(つまり、頭字語識別(AI))を識別し、各頭字語(すなわち、頭字語曖昧化(AD))の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
より具体的には、自動生成された頭字語識別データセットにおける手作業によるaiデータセットやノイズのサイズが制限され、高度な頭字語識別モデルの設計が妨げられる。
さらに、既存のデータセットは医療領域に限られており、他のドメインを無視している。
これら2つの制限に対処するため、我々はまず、科学領域のための手動で注釈付き大規模AIデータセットを作成します。
このデータセットには、17,506の文が含まれている。
次に、従来の科学的なadデータセットよりもはるかに大きい62,441サンプルからなる科学領域の広告データセットを作成する。
実験の結果,本研究で提案する2つのデータセットにおいて,既存の最先端モデルが人間レベルの性能にはるかに及ばないことが判明した。
さらに,文の構文構造を利用して,曖昧な頭字語を文内に拡張する新しい深層学習モデルを提案する。
提案されたモデルは、新しいadデータセットの最先端モデルよりも優れており、このデータセットに関する今後の研究に強力なベースラインを提供する。
関連論文リスト
- Long-Tailed Anomaly Detection with Learnable Class Names [64.79139468331807]
性能評価のためのクラス不均衡とメトリクスのレベルが異なるデータセットをいくつか導入する。
次に、データセットのクラス名に頼ることなく、複数の長い尾を持つクラスから欠陥を検出する新しい手法LTADを提案する。
LTADは、ほとんどの形式のデータセットの不均衡に対して最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-29T15:26:44Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - MACRONYM: A Large-Scale Dataset for Multilingual and Multi-Domain
Acronym Extraction [66.60031336330547]
様々なNLPアプリケーションには、頭字語とその拡張形式が必要である。
既存のAE研究の限界の1つは、それらが英語と特定のドメインに限定されていることである。
複数の言語やドメインにアノテートされたデータセットが欠落することは、この分野の研究を妨げる大きな問題となっている。
論文 参考訳(メタデータ) (2022-02-19T23:08:38Z) - CABACE: Injecting Character Sequence Information and Domain Knowledge
for Enhanced Acronym and Long-Form Extraction [0.0]
本稿では,ACronym extract のための CABACE: Character-Aware BERT を提案する。
テキスト中の文字列を考慮に入れ、マスキング言語モデリングによって科学的および法的領域に適応する。
提案手法は,ノンイングリッシュ言語へのゼロショット一般化のためのベースラインモデルよりも適していることを示す。
論文 参考訳(メタデータ) (2021-12-25T14:03:09Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Leveraging Domain Agnostic and Specific Knowledge for Acronym
Disambiguation [5.766754189548904]
アクロニムの曖昧さは、テキストの中で曖昧なアクロニムの正しい意味を見つけることを目的としている。
本稿では,hdBERTを用いた階層型デュアルパスBERT法を提案する。
62,441文を含むSciADデータセットを用いて,hdBERTの有効性を検討した。
論文 参考訳(メタデータ) (2021-07-01T09:10:00Z) - BERT-based Acronym Disambiguation with Multiple Training Strategies [8.82012912690778]
Acronym disambiguation (AD) タスクは、与えられた文中の曖昧な頭字語を正しく拡張することを目的としている。
BERTと動的負のサンプル選択を含むいくつかのトレーニング戦略を組み込んだバイナリ分類モデルを提案する。
SciAD実験は,提案手法の有効性を示し,SDU@AAAI-21共有課題2:Acronym Disambiguationのスコアが1位となった。
論文 参考訳(メタデータ) (2021-02-25T05:40:21Z) - Acronym Identification and Disambiguation Shared Tasks for Scientific
Document Understanding [41.63345823743157]
頭字語は、文章でよく使われる長いフレーズの短い形です。
すべてのテキスト理解ツールは、テキストの頭字語を認識することができるはずです。
本研究の方向性を推し進めるため,学術文献における頭字語識別と頭字語曖昧化の2つのタスクを編成した。
論文 参考訳(メタデータ) (2020-12-22T00:29:15Z) - Primer AI's Systems for Acronym Identification and Disambiguation [0.0]
頭字語識別と曖昧化のための新しい手法を提案する。
提案手法に比べて性能が大幅に向上した。
両システムは、SDU@AAAI-21共有タスクリーダーボード上で競合的に動作します。
論文 参考訳(メタデータ) (2020-12-14T23:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。