論文の概要: UVA Resources for the Biomedical Vocabulary Alignment at Scale in the
UMLS Metathesaurus
- arxiv url: http://arxiv.org/abs/2205.10575v1
- Date: Sat, 21 May 2022 12:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 18:26:05.366584
- Title: UVA Resources for the Biomedical Vocabulary Alignment at Scale in the
UMLS Metathesaurus
- Title(参考訳): UMLSメタテーラスにおけるバイオメディカル語彙アライメントのためのUVA資源
- Authors: Vinh Nguyen, Olivier Bodenreider
- Abstract要約: UMLS(Unified Medical Language System)メタテーザウルスは、時間がかかり、コストがかかり、エラーが発生しやすい。
UMLSメタthesaurusの構築プロセスを改善するため,本研究グループはUVAと呼ばれる新しいタスクを定義した。
本稿では,(1)データセット生成装置,(2)ジェネレータを用いて生成された3つのデータセット,(3)ベースラインアプローチを含む再利用可能な,再現可能な資源について述べる。
- 参考スコア(独自算出の注目度): 3.8432118328837053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The construction and maintenance process of the UMLS (Unified Medical
Language System) Metathesaurus is time-consuming, costly, and error-prone as it
relies on (1) the lexical and semantic processing for suggesting synonymous
terms, and (2) the expertise of UMLS editors for curating the suggestions. For
improving the UMLS Metathesaurus construction process, our research group has
defined a new task called UVA (UMLS Vocabulary Alignment) and generated a
dataset for evaluating the task. Our group has also developed different
baselines for this task using logical rules (RBA), and neural networks (LexLM
and ConLM).
In this paper, we present a set of reusable and reproducible resources
including (1) a dataset generator, (2) three datasets generated by using the
generator, and (3) three baseline approaches. We describe the UVA dataset
generator and its implementation generalized for any given UMLS release. We
demonstrate the use of the dataset generator by generating datasets
corresponding to three UMLS releases, 2020AA, 2021AA, and 2021AB. We provide
three UVA baselines using the three existing approaches (LexLM, ConLM, and
RBA). The code, the datasets, and the experiments are publicly available,
reusable, and reproducible with any UMLS release (a no-cost license agreement
is required for downloading the UMLS).
- Abstract(参考訳): UMLS(Unified Medical Language System)メタテーザウルスの構築と保守プロセスは,(1)同義語を提案する語彙的・意味的処理,(2)提案をキュレートするUMLSエディターの専門知識に依存するため,時間的・費用的にもコスト的にもエラーも生じやすい。
UMLSメタセサウルス構築プロセスを改善するため,本研究グループはUVA(UMLS Vocabulary Alignment)と呼ばれる新しいタスクを定義し,タスクを評価するデータセットを生成した。
我々のグループは、論理ルール(RBA)とニューラルネットワーク(LexLMとConLM)を用いて、このタスクのための異なるベースラインも開発した。
本稿では,(1)データセット生成装置,(2)ジェネレータを用いて生成された3つのデータセット,(3)ベースラインアプローチを含む再利用可能な資源の集合について述べる。
本稿では,UVAデータセット生成器とその実装について述べる。
本稿では,3つのUMLSリリース,2020AA,2021AA,2021ABに対応するデータセットを生成することで,データセットジェネレータの利用を実証する。
既存の3つのアプローチ(LexLM, ConLM, RBA)を用いて3つのUVAベースラインを提供する。
コード、データセット、実験は、UMLSリリースで公開され、再利用され、再現可能である(UMLSをダウンロードするためには、無償のライセンス契約が必要である)。
関連論文リスト
- Grasping the Essentials: Tailoring Large Language Models for Zero-Shot
Relation Extraction [36.627683488532234]
関係抽出(RE)は、テキストで言及されたエンティティ間の意味的関係を識別することを目的としている。
標的関係のセマンティクスを理解するために、不完全で偏見のある監視を提供するような学習設定はほとんどない。
本稿では、自然言語で表現された関係定義のみを用いてREモデルを訓練するゼロショットRE設定について検討する。
論文 参考訳(メタデータ) (2024-02-17T00:20:06Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation
from Text [2.396908230113859]
大規模言語モデル (LLM) と創発的機能を持つ基礎モデルは、多くのNLPタスクの性能を向上させることが示されている。
オントロジーでガイドされた自然言語テキストから知識グラフ(KG)を生成する言語モデルの能力を評価するベンチマークであるText2KGBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T14:47:15Z) - HAGRID: A Human-LLM Collaborative Dataset for Generative
Information-Seeking with Attribution [46.41448772928026]
本稿では,Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset(Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset)を提案する。
ブラックボックスプロプライエタリな検索エンジンに焦点を当てた最近の取り組みとは異なり、私たちはMIRACLの英語サブセットの上にデータセットを構築しました。
論文 参考訳(メタデータ) (2023-07-31T17:49:18Z) - Investigating Table-to-Text Generation Capabilities of LLMs in
Real-World Information Seeking Scenarios [32.84523661055774]
タブラルデータは様々な産業で広く使われており、ユーザが情報検索の目的を理解し、操作するのにかなりの時間と労力を要する。
テーブル情報探索における大規模言語モデル (LLM) の現実的応用は, いまだに実証されていない。
本稿では,2つの実世界情報探索シナリオ内の4つのデータセットを用いて,異なるLLMのテーブル・トゥ・テキスト機能について検討する。
論文 参考訳(メタデータ) (2023-05-24T10:22:30Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。