論文の概要: UVA Resources for the Biomedical Vocabulary Alignment at Scale in the
UMLS Metathesaurus
- arxiv url: http://arxiv.org/abs/2205.10575v1
- Date: Sat, 21 May 2022 12:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 18:26:05.366584
- Title: UVA Resources for the Biomedical Vocabulary Alignment at Scale in the
UMLS Metathesaurus
- Title(参考訳): UMLSメタテーラスにおけるバイオメディカル語彙アライメントのためのUVA資源
- Authors: Vinh Nguyen, Olivier Bodenreider
- Abstract要約: UMLS(Unified Medical Language System)メタテーザウルスは、時間がかかり、コストがかかり、エラーが発生しやすい。
UMLSメタthesaurusの構築プロセスを改善するため,本研究グループはUVAと呼ばれる新しいタスクを定義した。
本稿では,(1)データセット生成装置,(2)ジェネレータを用いて生成された3つのデータセット,(3)ベースラインアプローチを含む再利用可能な,再現可能な資源について述べる。
- 参考スコア(独自算出の注目度): 3.8432118328837053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The construction and maintenance process of the UMLS (Unified Medical
Language System) Metathesaurus is time-consuming, costly, and error-prone as it
relies on (1) the lexical and semantic processing for suggesting synonymous
terms, and (2) the expertise of UMLS editors for curating the suggestions. For
improving the UMLS Metathesaurus construction process, our research group has
defined a new task called UVA (UMLS Vocabulary Alignment) and generated a
dataset for evaluating the task. Our group has also developed different
baselines for this task using logical rules (RBA), and neural networks (LexLM
and ConLM).
In this paper, we present a set of reusable and reproducible resources
including (1) a dataset generator, (2) three datasets generated by using the
generator, and (3) three baseline approaches. We describe the UVA dataset
generator and its implementation generalized for any given UMLS release. We
demonstrate the use of the dataset generator by generating datasets
corresponding to three UMLS releases, 2020AA, 2021AA, and 2021AB. We provide
three UVA baselines using the three existing approaches (LexLM, ConLM, and
RBA). The code, the datasets, and the experiments are publicly available,
reusable, and reproducible with any UMLS release (a no-cost license agreement
is required for downloading the UMLS).
- Abstract(参考訳): UMLS(Unified Medical Language System)メタテーザウルスの構築と保守プロセスは,(1)同義語を提案する語彙的・意味的処理,(2)提案をキュレートするUMLSエディターの専門知識に依存するため,時間的・費用的にもコスト的にもエラーも生じやすい。
UMLSメタセサウルス構築プロセスを改善するため,本研究グループはUVA(UMLS Vocabulary Alignment)と呼ばれる新しいタスクを定義し,タスクを評価するデータセットを生成した。
我々のグループは、論理ルール(RBA)とニューラルネットワーク(LexLMとConLM)を用いて、このタスクのための異なるベースラインも開発した。
本稿では,(1)データセット生成装置,(2)ジェネレータを用いて生成された3つのデータセット,(3)ベースラインアプローチを含む再利用可能な資源の集合について述べる。
本稿では,UVAデータセット生成器とその実装について述べる。
本稿では,3つのUMLSリリース,2020AA,2021AA,2021ABに対応するデータセットを生成することで,データセットジェネレータの利用を実証する。
既存の3つのアプローチ(LexLM, ConLM, RBA)を用いて3つのUVAベースラインを提供する。
コード、データセット、実験は、UMLSリリースで公開され、再利用され、再現可能である(UMLSをダウンロードするためには、無償のライセンス契約が必要である)。
関連論文リスト
- ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models [58.34560740973768]
本稿では,言語モデル(LM)を利用して文献レビュー表を生成するフレームワークを提案する。
ArXiv論文から抽出された2,228の文献レビューテーブルの新しいデータセットは、合計で7,542の論文を合成する。
我々は、LMが参照テーブルを再構築する能力を評価し、追加のコンテキストからこのタスクの利点を見出す。
論文 参考訳(メタデータ) (2024-10-25T18:31:50Z) - BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - HAGRID: A Human-LLM Collaborative Dataset for Generative
Information-Seeking with Attribution [46.41448772928026]
本稿では,Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset(Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset)を提案する。
ブラックボックスプロプライエタリな検索エンジンに焦点を当てた最近の取り組みとは異なり、私たちはMIRACLの英語サブセットの上にデータセットを構築しました。
論文 参考訳(メタデータ) (2023-07-31T17:49:18Z) - Investigating Table-to-Text Generation Capabilities of LLMs in
Real-World Information Seeking Scenarios [32.84523661055774]
タブラルデータは様々な産業で広く使われており、ユーザが情報検索の目的を理解し、操作するのにかなりの時間と労力を要する。
テーブル情報探索における大規模言語モデル (LLM) の現実的応用は, いまだに実証されていない。
本稿では,2つの実世界情報探索シナリオ内の4つのデータセットを用いて,異なるLLMのテーブル・トゥ・テキスト機能について検討する。
論文 参考訳(メタデータ) (2023-05-24T10:22:30Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。