論文の概要: Leveraging Domain Agnostic and Specific Knowledge for Acronym
Disambiguation
- arxiv url: http://arxiv.org/abs/2107.00316v1
- Date: Thu, 1 Jul 2021 09:10:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 20:49:55.852299
- Title: Leveraging Domain Agnostic and Specific Knowledge for Acronym
Disambiguation
- Title(参考訳): 頭字語曖昧さ解消のためのドメイン非依存・特定知識の活用
- Authors: Qiwei Zhong, Guanxiong Zeng, Danqing Zhu, Yang Zhang, Wangli Lin, Ben
Chen, Jiayu Tang
- Abstract要約: アクロニムの曖昧さは、テキストの中で曖昧なアクロニムの正しい意味を見つけることを目的としている。
本稿では,hdBERTを用いた階層型デュアルパスBERT法を提案する。
62,441文を含むSciADデータセットを用いて,hdBERTの有効性を検討した。
- 参考スコア(独自算出の注目度): 5.766754189548904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An obstacle to scientific document understanding is the extensive use of
acronyms which are shortened forms of long technical phrases. Acronym
disambiguation aims to find the correct meaning of an ambiguous acronym in a
given text. Recent efforts attempted to incorporate word embeddings and deep
learning architectures, and achieved significant effects in this task. In
general domains, kinds of fine-grained pretrained language models have sprung
up, thanks to the largescale corpora which can usually be obtained through
crowdsourcing. However, these models based on domain agnostic knowledge might
achieve insufficient performance when directly applied to the scientific
domain. Moreover, obtaining large-scale high-quality annotated data and
representing high-level semantics in the scientific domain is challenging and
expensive. In this paper, we consider both the domain agnostic and specific
knowledge, and propose a Hierarchical Dual-path BERT method coined hdBERT to
capture the general fine-grained and high-level specific representations for
acronym disambiguation. First, the context-based pretrained models, RoBERTa and
SciBERT, are elaborately involved in encoding these two kinds of knowledge
respectively. Second, multiple layer perceptron is devised to integrate the
dualpath representations simultaneously and outputs the prediction. With a
widely adopted SciAD dataset contained 62,441 sentences, we investigate the
effectiveness of hdBERT. The experimental results exhibit that the proposed
approach outperforms state-of-the-art methods among various evaluation metrics.
Specifically, its macro F1 achieves 93.73%.
- Abstract(参考訳): 科学的文書理解の障害は、長い技術用語の短縮形である頭字語を広範囲に使用することである。
acronym disambiguationは、与えられたテキストの中で曖昧な頭文字の正しい意味を見つけることを目的としている。
近年、単語埋め込みとディープラーニングアーキテクチャを組み込むことが試みられ、この課題に大きな影響を与えた。
一般的なドメインでは,クラウドソーシングによって得られる大規模コーパスのおかげで,微粒な事前学習言語モデルが発達している。
しかし、これらのドメインに依存しない知識に基づくモデルは、科学領域に直接適用した場合に不十分な性能を達成する可能性がある。
さらに、大規模で高品質な注釈付きデータを取得し、科学領域における高度な意味を表現することは困難でコストがかかる。
本稿では、ドメイン非依存と特定の知識の両方を考慮し、hdBERTという階層的デュアルパスBERT法を提案し、頭字不明瞭化のための一般的な細粒度および高レベル特定表現を捉える。
まず、文脈に基づく事前学習モデルRoBERTaとSciBERTがこれら2種類の知識の符号化に精通している。
第二に、多重層パーセプトロンは二重パス表現を同時に統合し、予測を出力するように考案されている。
62,441文を含むSciADデータセットを用いて,hdBERTの有効性を検討した。
実験の結果,提案手法は各種評価指標の最先端手法よりも優れていた。
特に、そのマクロf1は93.73%に達する。
関連論文リスト
- Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Learning Knowledge-Enhanced Contextual Language Representations for
Domain Natural Language Understanding [46.00400830499326]
我々は,様々なclosed dOmains(KANGAROO)のための知識強化型LANGuAge表現学習フレームワークを提案する。
実験では, 各種知識認識タスクおよび一般NLPタスクに対して, フルおよび少数ショットの学習環境において, カンガロオの評価を行った。
論文 参考訳(メタデータ) (2023-11-12T07:37:24Z) - Adapting Knowledge for Few-shot Table-to-Text Generation [35.59842534346997]
AKG(Adapt-Knowledge-to-Generate)という新しいフレームワークを提案する。
AKGはラベルのないドメイン固有の知識をモデルに適応させ、少なくとも3つの利点をもたらす。
本モデルでは,人間の評価と自動評価により,流速,精度の両面において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-24T05:48:53Z) - Language-aware Domain Generalization Network for Cross-Scene
Hyperspectral Image Classification [15.842081807249416]
ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。
大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。
言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
論文 参考訳(メタデータ) (2022-09-06T10:06:10Z) - Prior Knowledge Guided Unsupervised Domain Adaptation [82.9977759320565]
本稿では,対象とするクラス分布に関する事前知識を利用できる知識誘導型非教師付きドメイン適応(KUDA)設定を提案する。
特に,対象領域におけるクラス分布に関する2種類の事前知識について考察する。
このような事前知識を用いて生成した擬似ラベルを精査する修正モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T18:41:36Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Improving Lexically Constrained Neural Machine Translation with
Source-Conditioned Masked Span Prediction [6.46964825569749]
本稿では、より長いn-gramと高度に専門化された用語を持つドメイン固有コーパスからなるより困難なセットアップに取り組む。
生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加する。
2つの言語対における3つのドメイン固有コーパスの実験結果から,提案手法が既存の語彙制約手法の性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-05-12T08:11:33Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - Domain Adaption for Knowledge Tracing [65.86619804954283]
本稿では,DAKT問題に対処するための新しい適応型フレームワーク,すなわち知識追跡(AKT)を提案する。
まず,Deep Knowledge Trace(DKT)に基づく教育的特徴(スリップ,推測,質問文など)を取り入れ,優れた知識追跡モデルを得る。
第2の側面として、3つのドメイン適応プロセスを提案し、採用する。まず、ターゲットモデルトレーニングに有用なソースインスタンスを選択するために、自動エンコーダを事前訓練する。
論文 参考訳(メタデータ) (2020-01-14T15:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。