論文の概要: CoSiNES: Contrastive Siamese Network for Entity Standardization
- arxiv url: http://arxiv.org/abs/2306.03316v1
- Date: Mon, 5 Jun 2023 23:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 17:52:13.345004
- Title: CoSiNES: Contrastive Siamese Network for Entity Standardization
- Title(参考訳): CoSiNES: エンティティ標準化のための対照的なSameseネットワーク
- Authors: Jiaqing Yuan and Michele Merler and Mihir Choudhury and Raju Pavuluri
and Munindar P. Singh and Maja Vukovic
- Abstract要約: 本稿では,フリーフォームテキストから知識ベースにおける標準エンティティへのノイズの多い言及をマッピングするフレームワークを提案する。
CoSiNESは、トレーニング済みの言語モデルを適用して、新しいドメイン内のエンティティの構文とセマンティクスをキャプチャする。
CoSiNESは、化学、医学、生物医学の4つの標準データセットで競争力を発揮する。
- 参考スコア(独自算出の注目度): 11.370933292839082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entity standardization maps noisy mentions from free-form text to standard
entities in a knowledge base. The unique challenge of this task relative to
other entity-related tasks is the lack of surrounding context and numerous
variations in the surface form of the mentions, especially when it comes to
generalization across domains where labeled data is scarce. Previous research
mostly focuses on developing models either heavily relying on context, or
dedicated solely to a specific domain. In contrast, we propose CoSiNES, a
generic and adaptable framework with Contrastive Siamese Network for Entity
Standardization that effectively adapts a pretrained language model to capture
the syntax and semantics of the entities in a new domain.
We construct a new dataset in the technology domain, which contains 640
technical stack entities and 6,412 mentions collected from industrial content
management systems. We demonstrate that CoSiNES yields higher accuracy and
faster runtime than baselines derived from leading methods in this domain.
CoSiNES also achieves competitive performance in four standard datasets from
the chemistry, medicine, and biomedical domains, demonstrating its cross-domain
applicability.
- Abstract(参考訳): エンティティ標準化は、フリーフォームテキストから知識ベースにおける標準エンティティへの騒がしい言及をマップする。
他のエンティティ関連タスクと比較して、このタスクの独特な課題は、周辺コンテキストの欠如と言及の表面形態の多くのバリエーションであり、特にラベル付きデータが不足している領域をまたいで一般化する場合である。
これまでの研究は主に、コンテキストに大きく依存するか、特定のドメインにのみ依存するか、モデルの開発に重点を置いてきた。
対照的に、CoSiNESはContrastive Siamese Network for Entity Standardizationを備えた汎用的で適応可能なフレームワークで、事前訓練された言語モデルに効果的に適応して、新しいドメイン内のエンティティの構文とセマンティクスをキャプチャする。
産業コンテンツ管理システムから収集した640の技術的スタックエンティティと6,412の言及を含む技術領域に新たなデータセットを構築する。
cosinesは、このドメインのリードメソッドに由来するベースラインよりも、高い精度と高速なランタイムをもたらすことを実証する。
CoSiNESはまた、化学、医学、生体医学の4つの標準データセットの競争性能も達成し、そのクロスドメイン適用性を示している。
関連論文リスト
- Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Syntax-Guided Domain Adaptation for Aspect-based Sentiment Analysis [23.883810236153757]
ドメイン適応は、ドメイン間で共通の知識を伝達することによって、新しいドメインにおけるデータ不足問題を緩和するための一般的なソリューションである。
より効果的なクロスドメインABSAのための、SDAMと呼ばれる新しい構文誘導型ドメイン適応モデルを提案する。
我々のモデルは、クロスドメインEnd2EndABSAタスクのMicro-F1メトリックに関して、最先端のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2022-11-10T10:09:33Z) - Studying the role of named entities for content preservation in text
style transfer [65.40394342240558]
フォーマルなテキストスタイル転送のためのコンテンツ保存における名前付きエンティティの役割に焦点をあてる。
テキストスタイル転送におけるコンテンツ類似度評価のための新しいデータセットを収集する。
本稿では,事前学習された形式性伝達モデルの誤り解析を行い,テキストスタイルの転送に使用されるベースラインコンテンツ類似度尺度の性能を高めるために,名前付きエンティティに関する情報を利用する簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T09:31:47Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z) - Cross-Domain Data Integration for Named Entity Disambiguation in
Biomedical Text [5.008513565240167]
本稿では,一般的なテキスト知識ベースから医療領域へ構造的知識を伝達するクロスドメインデータ統合手法を提案する。
我々は,我々の統合手法を利用して構造資源を増強し,事前学習のための大規模なバイオメディカルNEDデータセットを生成する。
MedMentions と BC5CDR という2つのベンチマーク医学NEDデータセット上で, 最先端のパフォーマンスを実現するために, 構造知識を注入した事前学習モデルを構築した。
論文 参考訳(メタデータ) (2021-10-15T17:38:16Z) - Discover, Hallucinate, and Adapt: Open Compound Domain Adaptation for
Semantic Segmentation [91.30558794056056]
意味的セグメンテーションのための教師なしドメイン適応(UDA)が近年注目を集めている。
我々は,発見,幻覚,適応の3つの主要な設計原則に基づく新しいフレームワークを提案する。
我々は、標準ベンチマークGTAからC自動運転へのソリューションの評価を行い、新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2021-10-08T13:20:09Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Automatic Discovery of Novel Intents & Domains from Text Utterances [18.39942131996558]
本稿では,ラベルのない大量のデータから新しいドメインや意図を自動的に発見する新しいフレームワークADVINを提案する。
ADVINは3つのベンチマークデータセットのベースラインと、商用音声処理エージェントからの実際のユーザ発話を大きく上回る。
論文 参考訳(メタデータ) (2020-05-22T00:47:10Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。